这里 P(p) 是给定动词的短语分布。注意这里的第二个等式是成立的,因为当f(p) =a 时,P(a|p) = 1。P(p) 可以直接由 p 的频率得到,见公式 4.14。 3.2. 模型 这一小节提出了一种基于最小描述长度的模型,它可以精确地建模模板分配中的一般性和特殊性原则。使用最小描述长度的出发点:最小描述长度(minimum descrip- tion length,MDL)[9]是基于数据压缩程度的数据复杂度描述方法。而在动词模板分配问题中,一个动词模板可以被视为一组动词短语的压缩。对于概念化的模板,直觉上来说,如果一个模板分配是一个对于动词短语的简短描述,那么这个分配方案就抓住了底层的动词语义特征。 给定动词短语集合,寻找一个模板分配函数 f,使得这些动词短语的描述长度最短。假设 L( f )表示 f 的描述长度,那么可以将动词短语模板分配问题形式化表示为: 问题定义 4.7(模板分配)。给定动词短语分布 P(P),找到模板分配 f,使得 L(f) 最小化: 对于每个短语 p,它的编码方式包含两部分:左侧部分编码它的对应模板 f(p)(表示为 l(p, f )),右侧部分编码在给定模板时的动词短语(表示为 r(p, f ))。这样可以得到: 这里 L(p) 表示 p 的整体描述长度,包括左侧编码长度和右侧编码长度。l(p, f):模板编码长度为了编码p的模板 f(p),需要的编码长度为: 这里 P( f ( p)) 可以被公式 4.1 计算得到。 r(p, f):给定模板的短语编码长度在得到其模板 f(p) 之后,使用从模板 f(p) 到动词短语 p 的转移概率 PT (p|f(p)) 来编码 p。PT (p|f(p)) 是通过 Probase[103] 计算得来的,并在本文计算中视为先验概率。因此,对 p 的编码需要的编码长度是?logPT (p|f(p))。为 了计算 PT (p|f(p)),考虑两种情况: 情况一:f (p) 是一个俗语模板。这样由于俗语模板只有一个对应的动词短语,有PT (p|f(p))=1。 情况二:f(p) 是一个概念化模板。在这种情况下,只需要编码给定概念的动词宾语 op。使用从概念 cf(p) 到实体 op 的转移概率 PT (op|cf(p))(通过 Probase 得到)。实验部分会给出关于此概率的更明确的计算方法。 这样得到: 总长度通过将所有动词短语的描述长度相加,得到模板分配 f 下的总描述长度 L: 请注意这里公式引入了超参数 θ 来控制 l(p, f ) 和 r(p, f ) 的相对重要程度。后文将会解释 θ 是如何具体影响动词模板在一般性和特殊性中的取舍。 合理性分析接下来,本文会通过证明该模型对于动词模板的两个原则(即一般性和特殊性原则)的体现,来说明模型的合理性。为了简单起见,定义 LL( f ) 和 LR( f ) 分别用来表示对于动词模板部分的编码总长度,和给定模板编码具体动词短语的编码长度。具体计算如下: 一般性 通过最小化 LL( f ),模型可以找到具有一般性的模板。假设 A 表示所有在分配 f 下的模板,Pa 表示 a ∈ A 对应的动词短语集合,即满足 f(p) = a 的动词短语集合。根据公式 4.1 和 公式 4.7,有: 所以 LL( f ) 即为动词模板的熵(entropy)。最小化熵将使得模型选择并使用较少的动词模板。这体现了模板的一般性原则。 特殊性 通过最小化 LR( f ),模型可以找到具有特殊性的模板。公式 4.10 的内部实际上是 P(P|a) 和 PT (P|a) 的交叉熵。因此最小化 LR( f ) 会使得模型找到使 P(P|a) 和 PT (P|a) 尽量接近的分布。这体现了特殊性原则。 3.3. 算法 (责任编辑:本港台直播) |