在实体-答案值提取后,每个 QA 对 (qi,ai) 被转移到一个问题和一个实体-答案值对集合也就是 EVi 中。假设实体-答案值对之间是独立的,观察这样的一个 QA 对的概率为: 因此,整个 QA 语料库的似然概率为: 假设每个问题都会生成一个相等的概率,也就是说 P(qi) = α,可以得到: 其中 β = αn?∑ni=1 |EVi| 被视作一个常量。式 5.11 意味着 LQA 与这些问题-实体-答案值三元组的似然概率成比例。令 X 为从 QA 语料库中提取的这类三元组集合: 令 xi = (qi,ei,vi) 来表示 X 中的一项。因而 X = {x1,...,xm}。本节建立了 QA 的似然概率与 X 的似然概率之间的线性关系。 现在,最大化 QA 的似然概率等同于最大化X的似然概率。用式 5.2 中的生成模型,通过排除所有模板 t 和属性 p 的联合概率 P(q,e,t, p,v),模型能够计算 P(qi,ei,vi)。式 5.14 表示了这种似然概率。 4.2. 参数估计 目标:此节通过最大化式 5.14 来估计 P(p|t)。模型用参数 θ 和它对应的对数-似然概率来表示分布 P(P|T)。同时模型用 θpt 来表示概率 P(p|t)。所以下式被用来估计 θ: 其中 EM 估计的直觉:注意到一些随机变量(例如属性和模板)在概率模型中是隐藏的。这促使本章在参数估计中使用最大化期望算法来估计参数。最终目的是最大化完整数据的似然概率 L(θ)。然而,由于它包含对数求和,其计算有一定难度。因此推导转化为最大化其似然概率的下界,即 Q-函数 Q(θ;θ(s))。Q-函数的定义使用了完整数据的似然概率 Lc(θ)。EM 算法通过迭代来最大化下界 Q(θ;θ(s)) 从而最大化 L(θ)。在第 s 轮迭代中,E-步骤对每一个给定参数 θ(s) 计算 Q(θ;θ(s));M-步骤估计能够最大化下界的参数 θ (s+1)(下一轮迭代的参数)。 完整数据的似然概率:这个函数包括对数求和,因此直接最大化 L(θ) 在计算上是很困难的。直观上来说,如果参数估计过程知道每个被观察三元组的完整数据,也就是它们是由哪个模板和属性生成的,那么估计的过程会更容易。因此对每个被观察的三元组 xi,估计过程引入一个隐藏变量 zi。zi 的值是一对属性和模板即 zi = (p,t),用于指示 xi 是由属性 p 和模板 t 生成的。注意需要同时考虑属性和模板,因为它们在生成时不是独立的。P(zi = (p,t)) 是 xi 由属性 p 与模板 t 生成的概率。 记 Z = {z1,...,zm}。Z 和 X 一起形成完整数据。这个完整数据的对数-似然概率是: 其中 正如第 3.2. 节所讨论的, f () 可以在估计 P( p|t ) 之前被独立计算。所以它被视作一个已知的因子。 Q-函数:相比于直接优化 L(θ),式 5.20 中定义“Q-函数”作为观察完整数据似然概率的期望。这里 θ(s) 是 θ 在迭代 s 下的估计值。根据定理 5.4,当把 h(θ(s)) 视为常量时,Q(θ;θ(s)) 为 L(θ) 提供了一个下界。因此,atv,算法尝试去优化 Q(θ;θ(s)),而不是直接优化 L(θ) 定理 5.4(下界 [24]). L(θ) ≥ Q(θ;θ(s)) + h(θ(s))其中 h(θ(s)) 只随 θ(s) 改变, 对于 L(θ) 来说可以视作常量。 E-步骤中计算 Q(θ;θ(s))。对于式 5.20 中的每个 P(zi|X,θs),有: M-步骤最大化 Q-函数。通过使用拉格朗日乘子,式 5.22 计算得到 θ (s+1)。pt 4.3. 实现 本节讨论算法 5 中 EM 算法的实现。这一算法包含三步:初始化,E 步骤和 M 步骤。 (责任编辑:本港台直播) |