本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】一周论文 | 基于知识图谱的问答系统关键技术研究 #01(2)

时间:2017-04-09 16:14来源:118图库 作者:本港台直播 点击:
2012 年 5 月份,Google 花重金收购 Metaweb 公司,并向外界正式发布其知识图谱(knowledge graph)。自此,知识图谱正式走入公众视野。开放领域大规模知识图谱纷

2012 年 5 月份,Google 花重金收购 Metaweb 公司,并向外界正式发布其知识图谱(knowledge graph)。自此,知识图谱正式走入公众视野。开放领域大规模知识图谱纷纷出现,包括 NELL [15],Freebase [10],Dbpedia [6],Probase [103]等。

知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。知识图谱的出现是信息技术发展、时代发展的必然结果。语义的本质是关联。只有基于语义的数据互联才能发挥数据集成的非线性效应,才能获取大数据的特有语义。在这一背景下,数据互联(Linked Data)成为了一种运动,在全世界范围内方兴未艾。而数据互联的出现从深层次上来说是由时代精神所决定的。2011 年的 Science 曾经以“互联” 为题,出版专刊阐述了一个基本观点:我们身处在一个“互联”的时代。各种网络,诸如互联网、物联网、社会网络、语义网络、生物网络等等,将各类实体、概念加以互联。网络已经成为刻画复杂性的基本形态。管理、理解和使用各种网络数据,包括知识图谱,已经成为征服复杂性的基本手段。

码报:【j2开奖】一周论文 | 基于知识图谱的问答系统关键技术研究 #01

  1.1:一个 RDF 知识图谱示例。 这里的“dob”“pob”分别表示出生日期出生。注意到“spouse”关系是由多条边表示的name - marriage - person - name

  大部分这样的知识图谱采用了 RDF 作为数据格式,它们包含数以百万记甚至亿记的 SPO 三元组(Sub ject,Predicate,Object 分别表示主语,属性,宾语)。图1.1 是一个奥巴马及其相关实体构成的知识图谱的示例。可以看到,知识图谱具有明显格式化特征,其值往往是一个实体名字或者一个数字、一个日期。这保证了基于知识图谱的问答系统的回答简洁性。另一方面,不同于基于信息检索的问答系统需要考虑数据真实性的问题,知识图谱的高数据质量保证了答案的准确性。

1.2. 知识图谱在问答系统上的数据优势

问答系统有多种可能的数据来源。传统的数据来源包括网页文档、搜索引擎、百科描述、问答社区等。无一例外,这些数据来源都是非结构化的纯文本数据。有大量基于信息检索的方法致力于研究从纯文本数据中进行知识抽取和回答。而近年来,基于知识图谱的问答系统则成为学术界和工业界的研究和应用热点方向。相较于纯文本,知识图谱在问答系统中具有以下优势。这些优势都促使本文使用知识图谱来作为问答系统的知识来源。

数据关联度-语义理解智能化程度问题语义理解程度是问答系统的核心指标。对于纯文本数据,语义理解往往建立在问句与文本句子的相似度计算。然而语义理解和知识的本质在于关联,这种一对一的相似度计算忽视了数据关联。在知识图谱中,所有知识点被具有语义信息的边所关联。从问句到知识图谱的知识点的匹关联过程中,可以用到大量其关联结点的关联信息。这种关联信息无疑更为智能化的语义理解提供了条件。

数据精度-回答准确率知识图谱的知识来自专业人士标注,或者专业数据库的格式化抓取,这保证了数据的高准确率。而纯文本中,由于同类知识容易在文本中多次提及,会导致数据不一致的现象,降低了其准确率。

数据结构化-检索效率知识图谱的结构化组织形式,为计算机的快速知识检索提供了格式支持。计算机可以利用结构化语言如 SQL、SPARQL 等进行精确知识定位。而对于纯文本的知识定位,则往往包含了倒排表等数据结构,需要用到多个关键词的倒排表的综合排名,效率较低。

1.3. 基于知识图谱的问答系统工作方式

通过知识图谱为知识源回答问题时,一个问题对应于知识图谱的一个子结构。所以其问答过程的核心在于将自然语言问题映射为知识图谱上的结构化查询。例如对于图 1.1 中的知识图谱,表 1.1 展示了一些它可以回答的问题,以及对应的子结构。

码报:【j2开奖】一周论文 | 基于知识图谱的问答系统关键技术研究 #01

1.1:自然语言问题及其在知识图谱中的属性对应。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容