wzatv:【j2开奖】一周论文 | 基于知识图谱的问答系统关键技术研究 #02(2)_本港台直播_J2开奖直播

“marriage→person→name”和“date of birth”。由于第一个问题嵌套于第二个问题，可知“date of birth”修饰了“marriage→person→name”，而“marriage→ person→name”修饰了 Michelle Obama。

将模板映射到属性系统从雅虎问答（Yahoo! Answers）中学习模板以及如何将模板映射到知识图谱中的属性。这一问题与语义解析[13, 14]类似。从模板到属性的映射是多对一的，换言之，每个属性都对应于多个问题模板。系统一共学习了 2782 个属性的 27, 126, 355 种不同的模板。这一巨大的数目保证了基于模板的问答系统的高覆盖率。

学习模板的属性的过程如下所述。首先，对于每个雅虎问答中的问答对，系统提取问题中的实体及其对应值。之后，寻找连接实体和值的“直接”属性。其基本想法是，如果某个模板的绝大多数实例对应于共同的属性，就可以将这一模板映射到这一属性上。例如，假设从模板 how many people are there in$city 中得出的问题总是可以映射到属性“population”上，无论 $city 特指哪个城市，系统都可以认为这一模板必然会映射到属性“population”上。从模板到知识图谱中复杂结构的学习也采用类似的过程。唯一的区别在于系统寻找对应于一条由多条边组成的，从某个实体导向某个特定值的路径的“扩展属性”。（例如marriage→person→name）。

本章组织本章余下部分的组织形式如下。在第 2 节中，将会给出 KBQA 的概览。本章的主要贡献是从 QA 语料库中学习模板以及通过模板回答自然语言问题。全部技术部分都与这一核心贡献紧密相关。第三节展示了系统如何在线上问答中使用模板。第四节详述了如何从模板中推断属性。这也是基于模板的问答系统的关键步骤。第五节扩展了解决方案，用于回答可以分解为一系列 BFQ 的复杂问题。第六节扩展了模板的能力来推断复杂的属性结构。实验结果呈现在第 7 节，第 8 节讨论了更多的相关工作。第 9 节做出了小结。

第 2 节系统概览

本节将要介绍 KBQA 的一些背景知识及其概览。表 5.1 中列举了本章使用的符号。

wzatv:【j2开奖】一周论文 | 基于知识图谱的问答系统关键技术研究 #02

表 5.1：符号表

二元事实型 QA本章主要关注二元事实型问题（BFQ），亦即询问某个实体的某种属性的问题。例如，表 1.1 中除 ○f 外的所有问题均为 BFQ。

　　RDF 知识图谱给定一个问题，系统在一个 RDF 知识图谱中寻找其回答。一个 RDF 知识图谱 K 是一个（s,p,o）格式三元组的集合，这里 s, p, o 分别表示主语，属性和宾语。图 1.1 通过一个边带标注的有向图展示了一个示例的 RDF 知识图谱。每个（s, p, o）都由一条从 s 指向 o，标注有属性 p 的边表示。例如，从 a 指向 1961 的标注有 dob 的边表示 RDF 三元组（a,dob,1961），意味着 Barack Obama 出生于 1961 年。

QA语料库系统从雅虎问答学习问题模板，其包含有约四千一百万对问答对。这一 QA 语料库被记为 QA = {(q1,a1),(q2,a2),...,(qn,an)}，其中 qi 是某个问题而 ai 是其回复。每个回复 ai 含有一个或多个句子，atv，并且确切的事实回答也被包含在回复中。表 5.2 展示了 QA 语料库中的一些例子。

wzatv:【j2开奖】一周论文 | 基于知识图谱的问答系统关键技术研究 #02

表 5.2：QA 语料库中的 QA 对示例

模板通过用实体 e 的一个概念 c 替换 e，可以从问题 q 中得到模板 t。这一模板记为 t=t(q,e,c)。一个问题可能含有多个实体，并且一个实体可能属于多个概念。系统通过上下文相关的概念化过程[103]获得 e 的概念分布。例如，问题 when was Barack Obama born? 中含有图 1.1 中的实体 a。由于 a 属于两个概念：$person 和 $politician，系统可以从这一问题中获得两个模板：When was $person born? 和 When was $politician born?。

系统结构 图 8.1 展示了问答系统的流水线。它含有两个主要过程：在线 QA 部分和离线预处理部分。

在线过程：当一个问题到来，系统首先将其解析和分解为一系列二元事实型问题。这一分解过程将在第 5 节详述。对于每个二元事实型问题，系统使用概率推断来寻找它的值，如第 3 节所示。这一推断基于给定模板的属性分布，亦即 P( p|t)。这一分布是离线习得的。

(责任编辑：本港台直播)