整个研究强调整个研究的系统性,即不同层级之间的关联。一般来说,低层的结果被使用作为高层模型输入的一部分。其具体系统性关联如下: 1. 从实体到短文本实体层为短文本中的实体提供了语义社团。利用该语义社团,短文本层可以得到实体的相关概念,以进行实体语义消岐。从而帮助短文本层得到更精确的实体概念信息和语义信息。 2. 从短文本到问题 短文本层为问题层提供动词语义以及实体概念信息。这为问题层的问题模板表示学习过程中的实体概念化提供了支持。 3. 从问题到问答系统 问题层的输出,即问题模板,是整个问答系统语义关联的基础。问答系统以问题模板为输入,学习问题模板到知识图谱结构的映射。 4. 从问答系统到领域应用 本文会将利用迁移学习将系统的自然语言处理模块应用到领域问答系统中。同时将应用层抽取的领域知识作为问答系统的知识源,以使问答系统可以适应领域问答。 第 3 节 本文组织结构 本文按照架构(图 1.2)中自底向上的顺序具体介绍每一项研究内容。第三章介绍实体层的语义社团搜索。第四章介绍短文本层的动词模板,并在应用中讲述如何利用动词模板提升基于上下文的实体概念化效果。第五章提出了问答系统 KBQA,包括对问题的模板化理解,以及问题模板到知识图谱的映射学习。在第六章和第七章,本文分别介绍了两个用于问答系统领域适配的技术:自言语言处理模型的领域迁移,和领域知识抽取。第八章给出了一个基于 Freebase 的具体系统展示。最后的第九章进行了总结和展望。 第四章 基于知识图谱的短文本动词理解 动词理解在自然语言的语义理解中至关重要。对于动词的理解,有助于问答系统在短文本层面理解问题语义,进而帮助实现上下文相关的实体概念化。传统的动词表示,如 FrameNet、PropBank、VerbNet 等,专注于动词的角色。但是动词角色过于粗粒度,无法表示和区分动词的语义。本章将介绍基于动词模板的动词语义表示模式。每个动词模板对应于动词的单个语义。首先本文分析了动词模板的原则:一般性和特殊性原则。然后提出一个非监督的最小描述长度模型来建模此问题。实验结果证明了模型的有效性。论文进一步将动词模板应用在上下文相关的实体概念化问题上。 第 1 节 引言 动词对句子的理解是至关重要的 [30, 104]。动词理解的一个主要问题是歧义性 [77],即当同一动词和不同宾语相结合时,会表示不同的语义。本文只考虑和宾语相结合的动词,即及物动词。就像例 4.1 中展示的那样,大部分动词都是具有歧义的。因此需要一个好的动词语义表示方式,来表示其奇异性。 例 4.1. eat 具有以下几种意思: 把食物在嘴里咀嚼并吞咽,例如 eat apple,eat hot dog。 吃一顿饭,例如 eat breakfast,eat lunch,eat dinner。 其他俗语。例如 eat humbie pie 表示承认错误。 许多典型的动词表示方式,包括 FrameNet [7],PropBank [52]和 VerbNet [82],侧重描述动词的语义角色(例如“eat”的摄食者和被进食物)。但是,语义角色是一种非常粗糙的表示,无法区分动词细粒度的语义。不同短语中的同一动词,可以在具有同样语义角色的同时表达不同的语义。在例 4.1 中,无论是“eat apple”还是“eat breakfast”,都具有摄食者等角色。但是这些 eat 具有有不同的语义。 由于无法表达动词的歧义性,传统动词表示形式方式无法完整的表示动词语义。在句子“I like eating pitaya”,人直接可以推断“pitaya”大概是一种食物,因为食物是最常见的“eat”的对应语义。这就可以让人利用上下文相关的概念化技术将“pitaya”理解为食物。而传统动词表示形式只理解“pitaya”是一个被进食物,而无法知道它是一顿饭还是一种食物。 动词模版 本文认为,动词模版可以用来表示一个动词更细粒度的语义。动词模版基于语言学家对单词结合的两个原则设计 [84]:俗语原则(idiom principle)和开放选择原则(open-choice principle)。基于这两个原则,本文设计了两种类型的动词模版: (责任编辑:本港台直播) |