“marriage→person→name”和“date of birth”。由于第一个问题嵌套于第二个问题,可知“date of birth”修饰了“marriage→person→name”,而“marriage→ person→name”修饰了 Michelle Obama。 将模板映射到属性系统从雅虎问答(Yahoo! Answers)中学习模板以及如何将模板映射到知识图谱中的属性。这一问题与语义解析[13, 14]类似。从模板到属性的映射是多对一的,换言之,每个属性都对应于多个问题模板。系统一共学习了 2782 个属性的 27, 126, 355 种不同的模板。这一巨大的数目保证了基于模板的问答系统的高覆盖率。 学习模板的属性的过程如下所述。首先,对于每个雅虎问答中的问答对,系统提取问题中的实体及其对应值。之后,寻找连接实体和值的“直接”属性。其基本想法是,如果某个模板的绝大多数实例对应于共同的属性,就可以将这一模板映射到这一属性上。例如,假设从模板 how many people are there in$city 中得出的问题总是可以映射到属性“population”上,无论 $city 特指哪个城市,系统都可以认为这一模板必然会映射到属性“population”上。从模板到知识图谱中复杂结构的学习也采用类似的过程。唯一的区别在于系统寻找对应于一条由多条边组成的,从某个实体导向某个特定值的路径的“扩展属性”。(例如marriage→person→name)。 本章组织本章余下部分的组织形式如下。在第 2 节中,将会给出 KBQA 的概览。本章的主要贡献是从 QA 语料库中学习模板以及通过模板回答自然语言问题。全部技术部分都与这一核心贡献紧密相关。第三节展示了系统如何在线上问答中使用模板。第四节详述了如何从模板中推断属性。这也是基于模板的问答系统的关键步骤。第五节扩展了解决方案,用于回答可以分解为一系列 BFQ 的复杂问题。第六节扩展了模板的能力来推断复杂的属性结构。实验结果呈现在第 7 节,第 8 节讨论了更多的相关工作。第 9 节做出了小结。 第 2 节 系统概览 本节将要介绍 KBQA 的一些背景知识及其概览。表 5.1 中列举了本章使用的符号。 表 5.1:符号表 二元事实型 QA本章主要关注二元事实型问题(BFQ),亦即询问某个实体的某种属性的问题。例如,表 1.1 中除 ○f 外的所有问题均为 BFQ。 RDF 知识图谱给定一个问题,系统在一个 RDF 知识图谱中寻找其回答。一个 RDF 知识图谱 K 是一个(s,p,o)格式三元组的集合,这里 s, p, o 分别表示主语,属性和宾语。图 1.1 通过一个边带标注的有向图展示了一个示例的 RDF 知识图谱。每个(s, p, o)都由一条从 s 指向 o,标注有属性 p 的边表示。例如,从 a 指向 1961 的标注有 dob 的边表示 RDF 三元组(a,dob,1961),意味着 Barack Obama 出生于 1961 年。 QA语料库系统从雅虎问答学习问题模板,其包含有约四千一百万对问答对。这一 QA 语料库被记为 QA = {(q1,a1),(q2,a2),...,(qn,an)},其中 qi 是某个问题而 ai 是其回复。每个回复 ai 含有一个或多个句子,atv,并且确切的事实回答也被包含在回复中。表 5.2 展示了 QA 语料库中的一些例子。 表 5.2:QA 语料库中的 QA 对示例 模板通过用实体 e 的一个概念 c 替换 e,可以从问题 q 中得到模板 t。这一模板记为 t=t(q,e,c)。一个问题可能含有多个实体,并且一个实体可能属于多个概念。系统通过上下文相关的概念化过程[103]获得 e 的概念分布。例如,问题 when was Barack Obama born? 中含有图 1.1 中的实体 a。由于 a 属于两个概念:$person 和 $politician,系统可以从这一问题中获得两个模板:When was $person born? 和 When was $politician born?。 系统结构 图 8.1 展示了问答系统的流水线。它含有两个主要过程:在线 QA 部分和离线预处理部分。 在线过程:当一个问题到来,系统首先将其解析和分解为一系列二元事实型问题。这一分解过程将在第 5 节详述。对于每个二元事实型问题,系统使用概率推断来寻找它的值,如第 3 节所示。这一推断基于给定模板的属性分布,亦即 P( p|t)。这一分布是离线习得的。 (责任编辑:本港台直播) |