中科院计算所汉语词性标记集提供了 vn、an 等词性标签,v 代表动词,a 代表形容词,后面加上 n,其实有一种「动名词」「形名词」的意思,也是对英语的一种借鉴。vn 等标签可以帮我们解决掉一些非谓动词干扰的问题,但不能解决全部。 在实际应用中,我们以「依句辨品,离句无品」的原则去做词性标注,关注词在句子里的位置和作用,虽然这未必是黎锦熙先生说这句话时的本意。 3. 句法分析 目前在做的句法分析包括句法树 (Parse Tree) 和依存句法分析 (Dependency Parsing, DP),谈到这两点不得不放出下面这两张图: 图 (1) 图 (2) 不同的词类在句子中行使的功能是不一样的。图 (1) 基本可以代表英语词类的功能,这张图比较符合我们的一般认识,即名词作主语宾语,动词作谓语,形容词作定语,副词作状语。 但是汉语的情况,如图 (2),要复杂得多。名词也可以作谓语,动词也可以作主宾语。比如: 我永远十八岁。 例 (12) 就是一个典型的名词性短语作谓语的例子,这个句子不需要动词也成立。「我」是代词,「永远」是副词,「十八岁」是数量短语。 句法树分析结果如下: 图 (3) 图 (3) 借用 CTB(美国宾州大学的汉语树库)的标注体系,NP 代表名词性短语,VP 代表动词性短语,虽然这句话中没有动词,但仍需要 VP 作为谓语的框架。 依存句法分析结果如下: 图 (4) 图 (4) 借用 LTP(哈工大社会计算与信息检索研究中心研发的「语言技术平台」)的标注体系,SBV 代表主语,root 是「岁」,即使没有动词,也能正确分析句子结构。 汉语还有一些特殊句型,比如主谓谓语句、存现句、连谓句、兼语句等,在句法分析层面上都有自己独特的结构,也是需要特殊处理的。 4. 其他方面 汉语还有一个特点是重意合而不重形式,句子结构比较松散,多分句;英语则多从句,atv直播,多引导词,直播,句子结构比较容易判断。如果要判断句子里的因果关系、让步关系、目的关系、假设关系等,目前来说还比较难。况且我们说话的时候,常常会省略「因为」「即使」「如果」等明显的关联词,这也样也就使得特征变得不明显。比如: (13) 人勤地不懒。 (14) 如果人勤地就不懒。 例 (13) 和 (14) 表达了一样的意思,但它们的表现形式是不一样的。 汉语结构松散还表现为: (15) 一斤苹果多少钱? (16) 苹果一斤多少钱? (17) 多少钱一斤苹果? 例 (15)(16)(17) 都说得通,而且还很常用。 在语义分析层面,如语义角色标注 (Semantic Role Labeling, SRL) 和语义依存分析 (Semantic Dependency Parsing, SDP),汉语这个特点着实加大了实现的难度。 5. 从 NLP 到 NLU,从处理到理解 再来谈谈 NLU,传统的 NLP 基本上都是在做「处理」的工作,是把人类的语言掰开揉碎,而 NLU 则解决更深层的「理解」问题,即如何消化 NLP 已经处理好的东西,真正让机器明白人类语言的语义(semantic)。NLU 的出现也对中文 NLP 起到了重要的补足作用。 NLP 和传统语言学已经可以帮助人工智能解决一部分初级问题,但却还远远不能 cover 千变万化的语言形式,比如机器可以理解「我心情不好」,却难以理解「我的心淅淅沥沥下着小雨」这样的转喻;机器可以理解「我要吃饭」,却难以体会同样是吃饭,「上饭店」和「下馆子」,这一「上」一「下」间表达的心理上的微妙差异。 人机自然语言交互涉及到语法、语义、语用三个层面,越往后越难。为了推动人机自然语言交互的发展,需要在 NLP 的基础上,引入 NLU、认知语言学、心理语言学、社会语言学等学科的综合参与。甚至如竹间智能正在探索的,为了理解「寒暄」、「安抚」甚至是「讽刺」、「幽默」这样的言语修辞行为,需要在深度学习方法中结合对心理学的研究,在语义理解的基础上增加意图识别和情感判断,以弥补传统中文 NLP 在语言理解上的不足,让机器真正读懂人类语言的复杂语义,以及背后的意图和情感。在此基础上给予对话者拟人的反馈,从而达到更好的人机自然语言交互效果。 (责任编辑:本港台直播) |