本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】一周论文 | 基于知识图谱的问答系统关键技术研究 #02

时间:2017-04-16 17:58来源:本港台现场报码 作者:www.wzatv.cc 点击:
本文作者为复旦大学知识工场实验室博士生崔万云,研究方向为问答系统和知识图谱。一周论文栏目近期内将会对此论文进行连载,第一期内容请查看 : 。 第五章 从问答语料库和知

  本文作者为复旦大学知识工场实验室博士生崔万云,研究方向为问答系统知识图谱一周论文栏目近期内将会对此论文进行连载,第一期内容请查看

第五章 从问答语料库和知识图谱学习问答

问答系统(QA)已经成为人类访问十亿级知识图谱的流行方式。与网络搜索不同,在自然语言问题能够被精确地理解和映射到知识图谱上的结构化查询的前提下,基于知识图谱的问答系统将给出准确且简洁的结果。这其中的挑战是人类可以以许多不同的方式提出同一询问。现有的解决方案由于它们的模型表示而有着天然的缺陷:基于规则的实现只能理解一小部分的问题,而基于关键词或同义词的实现不能完整地理解问题。在十亿规模的知识图谱和百万规模的问答语料库的基础上,本章设计了一种新的问题表现形式:问题模板。例如,对于一个关于某个城市人口数目的问题,可以学习到诸如 what is the total number of people in $city? 或 how many people are there in $city? 这样的问题模板。本章共为 2782 种关系学习了约两千七百万种模板。基于这些模板,本章设计的问答系统 KBQA 能够有效地支持二元事实型问题,以及由一系列二元事实型问题组合而成的复杂问题。此外,通过将 RDF 知识图谱进行属性扩展,知识图谱的覆盖范围提高了 57 倍。在 QALD 标准测试集上,KBQA 系统在有效性和效率上击败了其他所有竞争对手。

第 1 节 绪论

问答系统(QA)已吸引了大量的研究。一个 QA 系统是被设计用于回答某种特定类型的问题[12]。这其中最重要的一种问题类型是事实型问题(factoid ques- tion,FQ),这些问题询问有关某个实体的客观事实情况。一种特定的事实型问题是二元事实型问题(binary factoid question,BFQ)[1],这些问题询问某个实体的一种属性。例如,How many people live in Honolulu? 是一个二元事实型问题。如果系统能回答 BFQ,那么它就有能力去回答其他种类的问题,比如 1)排序问题:Which city has the third largest population? 2)比较问题:Which city has more population, Honolulu or New Jersey? 3)列举问题:List the cities ordered by their populations等。除了 BFQ 及其变种之外,系统还能回答像 When was Barack Obama’s wife born? 这样的复杂的事实型问题。这一问题的回答可以通过合并两个 BFQ 的回答来实现:Who is the wife of Barack Obama (Michelle Obama) 和 When was Michelle Obama born? (1964)。系统将复杂事实型问题定义为那些可以分解成一系列 BFQ 的问题。本章将重点讨论 BFQ 和如前所述的复杂事实型问题。

基于知识图谱的 QA 已经有了较长的历史。最近,大规模知识图谱,如 Google Knowledge Graph, Freebase[10], YAGO2[45]等,不断涌现,极大地增加了问答系统的重要性和商业价值。大部分这样的知识图谱采用了 RDF 作为数据格式,并且它们包含数以百万或是十亿的 SPO 三元组(S,P,O分别表示主体,属性,宾语)。

1.1. 方法概览

wzatv:【j2开奖】一周论文 | 基于知识图谱的问答系统关键技术研究 #02

图 5.1:基于模板的方法

为了回答一个问题,系统需要首先表示这个问题。所谓表示一个问题,指的是将问题从自然语言转换为一种能够捕获问题语义和意图的计算机内部表示。然后,对于每种内部表示,学习将其映射到知识图谱上的 RDF 查询。因此,本章工作的核心之一就是这一内部表示设计,记为“问题模板”。

通过模板表现问题基于同义词的方法在问题 ○a 上的失败,启发系统通过模板来理解问题。例如,how many people are there in $city 是问题 ○a 的模板。无论 $city 指的是檀香山市还是其他城市,这一模板永远询问人口数的问题。

这样,问题表示的任务转化为了将问题映射到现有模板的任务。为了完成这一点,系统将问题中的实体替换为它的概念。如图 5.1,Honolulu 会被 $city 所替代。这一过程并不是直接的。它通过一种称为概念化[87, 50]的机制完成目的。这一机制会自动对输入进行歧义消除(因此苹果的总部是什么中的苹果会被概念化为 $company 而非 $fruit)。概念化机制本身基于一个考虑数百万种概念的语义网络(Probase [103]),其拥有足够的粒度来模板化所有类型的问题。

模板的思想对于复杂问题同样起效。通过使用模板,可以将复杂问题简单地分解为一系列仅对应一个属性的简单问题。以表 1.1 中的问题 ○f 为例,系统将 ○f 分解为 Barack Obama’s wife 和 when was Michelle Obama born。这两个子问题分别对应

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容