模板分布 P(t|q,e) 模板有类似 $person 何时出生?这样的形式。换言之,它是将一个问题中的某个实体(如“Barack Obama”)替换为实体的概念($person)的结果。令 t = t(q,e,c) 表示模板 t 是通过将 q 中实体 e 替换为 e 的概念 c 得到的。由此可得: 其中 P(c|q, e) 是 e 在上下文 q 中的概念分布。本章的工作直接应用了[87]中的概念化方法来计算 P(c|q, e)。 值(回答)分布 P(v|e, p) 对于实体 e 和一个关于 e 的属性 p,在知识图谱中寻找属性指向的值 v 是容易的。例如,在图 1.1 所示的知识图谱中,让实体 e = Barack Obama,属性 p = dob,很容易就很能从知识图谱中得到得到 Obama 出生年份 1961。在这一例子中,P(1961|Barack Obama,dob) = 1,因为 Obama 只有一个生日。有一些属性可能有多个指向的值(例如 Obama 的孩子)。在这样的例子中,模型假定所有可能的值有相同的概率。更形式化地,可以通过如下公式计算 P(v|e, p): 3.3. 在线过程 在这一过程中, 给定用户问题 q0, 系统可以通过式 5.7 计算 p(v|q0), 并且返回 argmaxv P(v|q0) 作为回答。 其中 P( p|t ) 由第 4 节所述的离线学习得到,其他概率项由第 3.2. 节所述的计算方法得到。 在线计算的复杂度:在在线计算过程中,系统依次枚举 q0 的实体、模板、属性和对应值。系统将每个问题的实体数,每个实体的概念数,每个实体-属性对的对应值数视为常量。因此在线计算过程的复杂度是 O(|P|),由对属性的枚举而产生。这里 |P| 指知识图谱中的属性数。 第 4 节 属性推断 本节介绍如何从模板中推断属性, 也就是 P(p|t) 的估计值。 其基本思路是将分布 P(P|T) 视作参数,然后使用极大似然 (ML) 估计法来估计 P(P|T)。第 4.1. 节介绍了基于参数估计的第一步,制定观测数据(亦即语料库中的 QA 对)的似然度。第 4.2. 和 4.3. 节分别阐述参数估计的细节以及其算法实现。 4.1. 似然度 算法的推导并不直接公式化似然概率来观察 QA 语料库 (QA ),而是先公式化一 个更简单的情形——从 QA 对中提取的一个问题-实体-答案值三元组集合的似然概率。接着构造两个似然概率之间的关系。这种间接公式构造更为直接。QA 的一个回答通常是一句包括精确值和其他许多符号的复杂的自然语言。这些符号中很大一部分对于推断属性是无意义的,并且为观察带入噪音。另一方面,在生成模型中直接建立完整答案的模型比较困难,但在其中建立答案值的模型则相对简单。 接下来,第 4.1.1. 节首先从给定的 QA 对中提取实体-答案值对,从而实现对问题-实体-答案值三元组 (X) 的似然概率的公式化。然后,第 5.13 节和第 4.1.2. 节建立了 QA 语料库和 X 的似然概率之间的关系。 4.1.1. 实体-答案值提取 从答案中提取候选值的原则是一个有效实体-答案值对通常在知识图谱中存在一些 一致关系。根据这个原则,可以从 (qi , ai) 中鉴别出候选实体-答案值对如下: 其中?表示“是......的子串”。系统支持近似匹配(比如“390K”与“395,327”匹配),从而能增加召回值。如例 5.3 所示。 例 5.3. 考虑表 5.2 中的 (q1,a1)。许多单词(例如 the,was,in)在答案中是无用的。注意到图 1.1 中,q1 中的实体 Barack Obama 与 1961 由属性“dob”连接,从而提取有效值 1961。同时要注意这步中系统也提取了噪音值 politician。下面的精炼步骤将展示如何过滤它。 EVi 的精炼在 EV(q,a) 中系统过滤了噪音对。例如例 5.3 中的(Barack Obama,politician)。直觉表明:正确值和问题应该属于同一类别。这里问题的类别表示问题的预期答案的类别。问题分类[66]已经有了相关研究。KBQA 系统使用 UIUC 分类框架[61]。并使用[66]中提出的具体分类方法。对于答案值分类,系统参考其属性的分类。属性分类是通过人工标记实现的。因为属性总共只有几千个,因此人工标记是可行的。 4.1.2. 似然函数 (责任编辑:本港台直播) |