崔万云,复旦大学知识工场实验室博士生,研究方向为问答系统和知识图谱。 第一章 绪论 2011 年 10 月 14 日,苹果公司在其 iPhone 4S 发布会上隆重推出新一代智能个人助理 Siri。Siri 通过自然语言的交互形式实现问答、结果推荐、手机操作等功能,并集成进 iOS 5 及之后版本。2012 年 7 月 9 日,谷歌发布智能个人助理 Google Now,通过自然语言交互的方式提供页面搜索、自动指令等功能。2014 年 4 月 2 日,微软发布同类产品 Cortana,2014 年 10 月,亚马逊发布同类产品 Alexa。在此之前的 2011 年 9 月,由 IBM 研发的 Watson 机器人参加智力问答节目“Jeopardy!”,并战胜该节目的前冠军 Brad Rut- ter 和 Ken Jennings,豪取一百万美金大奖。 问答系统(Question Answering system, QA system)是用来回答人提出的自然语言问题的系统。问答系统的实现涉及到自然语言处理、信息检索、数据挖掘等交叉性领域。问答系统的历史最早可以追溯到 1960 年代的 BASEBALL [40]和 1970 年代的 LUNAR [101]。自那时起,有大量的问答系统涌现 [107, 22]。 智能时代,人类期望有更简单自然的方式与机器进行交互。因此以自然语言为交互方式的智能机器人广受青睐,受到各大 IT 厂家追捧。而其底层核心技术之一,即为自然语言问答系统。问答系统提供了自然语言形式的人与产品交互,降低了产品使用门槛,大幅提成用户体验。同时,问答系统可以帮助企业极大节省呼叫中心的投入。这些应用已经印证了问答系统的商业价值和社会价值。 问答系统的应用仍然具有新的潜力。人对于互联网的核心诉求之一是知识获取。从更长的时间窗口看,问答系统及聊天机器人,有着成为互联网知识获取新入口的优势。搜索引擎依然是现阶段最重要的互联网入口,也缔造了谷歌、百度等巨头企业。然而,基于关键字的搜索方式,缺乏语义理解,存在着与人的自然需求表达的隔阂,同时其返回结果需要人消耗大量时间剔除无意义的信息。随着人工智能、自然语言理解技术的进步,当问答系统足够智能,使人类的监督最小的时候,人就可以用问答从互联网完成知识获取。 问答系统的研究,是语义计算和自然语言处理的综合性应用。它包含了多种典型自然语言处理的基本模型,例如实体识别、短文本理解、语义匹配等。传统的单一模型研究往往仅关注某一具体问题的效果,而忽视在系统整体中的实用性。问答系统由于其复杂性,需要不同模型间的联通,才能带来综合性、实用性的技术突破。因此问答系统的研究为不同语义理解模型的整合提供了应用出口,为不同模型的关联分析、数据共享、参数共享等提出了实际需求,为多个自然语言语义理解技术模型的整体突破带来了技术愿景。 另一方面,问答系统研究的核心在于问题语义和知识语义的理解和相似度计算。这是计算机理解人类语言和知识表达的关联,跨越语义鸿沟的关键。这条横亘在计算机面前的语义鸿沟,其关键是计算机和人类在语义表达方式上的不同。人类倾向于使用多样化、非结构化的表达来描述问题和知识,而计算机则偏爱唯一化、结构化的知识。问答系统的研究,直接作用于缩短和跨越这一语义鸿沟,将多样而模糊的问题语义,映射到具体而唯一的计算机知识库中。 优秀的问答系统有两个关键点:精确的问题理解和高质量的知识来源。近年来随着大数据的发展,这两点纷纷迎来了数据层面的发展契机。 问题理解由于问题的多样性和复杂性,很难人工制定一套规则完成问题理解。因此从数据中进行问题语义学习是必要的。社交类问答网站的兴起,包括Yahoo! Answers,Stack Overflow,百度知道等。由用户在上面进行提问和回答。这些网站包含了大量的问答对数据集,这成为了问题理解的优质语料。海量的问答语料为问题理解的学习提供了数据基础。 知识来源由于知识表述的多样性,以及知识关联的复杂性,需要优质而大量的知识来源。近年来,一批高准确率、海量规模的知识图谱涌现,为问答系统提供了结构化、关联化的知识来源。这也为高效的问题回答提供了知识基础。 在数据发展的契机下,如何设定恰当模型学习并使用这一批数据就显得尤为重要。传统的基于规则的模型 [72]无法合理利用海量语料;基于关键词的模型 [98] 则没有进行深入的语义理解。而一些复杂的图模型等 [116, 112],则由于时间复杂度很难直接应用在如此大规模的语料中。本文的研究,即旨在寻求一种优秀的、系统性的问答系统表示和学习模型,并进行成功应用。 1.1. 知识图谱简介 (责任编辑:本港台直播) |