码报:【j2开奖】一周论文 | 基于知识图谱的问答系统关键技术研究 #01_本港台直播_J2开奖直播

崔万云，复旦大学知识工场实验室博士生，研究方向为问答系统和知识图谱。

第一章绪论

　　第 1 节问答系统背景介绍

2011 年 10 月 14 日，苹果公司在其 iPhone 4S 发布会上隆重推出新一代智能个人助理 Siri。Siri 通过自然语言的交互形式实现问答、结果推荐、手机操作等功能,并集成进 iOS 5 及之后版本。2012 年 7 月 9 日,谷歌发布智能个人助理 Google Now，通过自然语言交互的方式提供页面搜索、自动指令等功能。2014 年 4 月 2 日，微软发布同类产品 Cortana，2014 年 10 月，亚马逊发布同类产品 Alexa。在此之前的 2011 年 9 月，由 IBM 研发的 Watson 机器人参加智力问答节目“Jeopardy!”，并战胜该节目的前冠军 Brad Rut- ter 和 Ken Jennings，豪取一百万美金大奖。

问答系统（Question Answering system, QA system）是用来回答人提出的自然语言问题的系统。问答系统的实现涉及到自然语言处理、信息检索、数据挖掘等交叉性领域。问答系统的历史最早可以追溯到 1960 年代的 BASEBALL [40]和 1970 年代的 LUNAR [101]。自那时起，有大量的问答系统涌现 [107, 22]。

智能时代，人类期望有更简单自然的方式与机器进行交互。因此以自然语言为交互方式的智能机器人广受青睐，受到各大 IT 厂家追捧。而其底层核心技术之一，即为自然语言问答系统。问答系统提供了自然语言形式的人与产品交互，降低了产品使用门槛，大幅提成用户体验。同时，问答系统可以帮助企业极大节省呼叫中心的投入。这些应用已经印证了问答系统的商业价值和社会价值。

问答系统的应用仍然具有新的潜力。人对于互联网的核心诉求之一是知识获取。从更长的时间窗口看，问答系统及聊天机器人，有着成为互联网知识获取新入口的优势。搜索引擎依然是现阶段最重要的互联网入口，也缔造了谷歌、百度等巨头企业。然而，基于关键字的搜索方式，缺乏语义理解，存在着与人的自然需求表达的隔阂，同时其返回结果需要人消耗大量时间剔除无意义的信息。随着人工智能、自然语言理解技术的进步，当问答系统足够智能，使人类的监督最小的时候，人就可以用问答从互联网完成知识获取。

问答系统的研究，是语义计算和自然语言处理的综合性应用。它包含了多种典型自然语言处理的基本模型，例如实体识别、短文本理解、语义匹配等。传统的单一模型研究往往仅关注某一具体问题的效果，而忽视在系统整体中的实用性。问答系统由于其复杂性，需要不同模型间的联通，才能带来综合性、实用性的技术突破。因此问答系统的研究为不同语义理解模型的整合提供了应用出口，为不同模型的关联分析、数据共享、参数共享等提出了实际需求，为多个自然语言语义理解技术模型的整体突破带来了技术愿景。

另一方面，问答系统研究的核心在于问题语义和知识语义的理解和相似度计算。这是计算机理解人类语言和知识表达的关联，跨越语义鸿沟的关键。这条横亘在计算机面前的语义鸿沟，其关键是计算机和人类在语义表达方式上的不同。人类倾向于使用多样化、非结构化的表达来描述问题和知识，而计算机则偏爱唯一化、结构化的知识。问答系统的研究，直接作用于缩短和跨越这一语义鸿沟，将多样而模糊的问题语义,映射到具体而唯一的计算机知识库中。

优秀的问答系统有两个关键点：精确的问题理解和高质量的知识来源。近年来随着大数据的发展，这两点纷纷迎来了数据层面的发展契机。

问题理解由于问题的多样性和复杂性，很难人工制定一套规则完成问题理解。因此从数据中进行问题语义学习是必要的。社交类问答网站的兴起，包括Yahoo! Answers，Stack Overflow，百度知道等。由用户在上面进行提问和回答。这些网站包含了大量的问答对数据集，这成为了问题理解的优质语料。海量的问答语料为问题理解的学习提供了数据基础。

知识来源由于知识表述的多样性，以及知识关联的复杂性，需要优质而大量的知识来源。近年来，一批高准确率、海量规模的知识图谱涌现，为问答系统提供了结构化、关联化的知识来源。这也为高效的问题回答提供了知识基础。

在数据发展的契机下，如何设定恰当模型学习并使用这一批数据就显得尤为重要。传统的基于规则的模型 [72]无法合理利用海量语料；基于关键词的模型 [98] 则没有进行深入的语义理解。而一些复杂的图模型等 [116, 112]，则由于时间复杂度很难直接应用在如此大规模的语料中。本文的研究，即旨在寻求一种优秀的、系统性的问答系统表示和学习模型，并进行成功应用。

1.1. 知识图谱简介

(责任编辑：本港台直播)