本节试着问答问题:“什么样的动词模板可以很好的总结一个动词短语集合”。由于每个动词短语都有若干候选动词模板,这个问题的回答是很困难的。直觉上,一个好的动词模板需要兼备一般性和特殊性。 一般性:本章希望用较少的模板个数来覆盖一个动词的所有语义。否则,抽取出的动词模板会变得琐碎。考虑极端的情况:所有的动词短语都被考虑为俗语模板。这些俗语模板显然大部分都是没意义的,因为大部分动词短语需要被概念化。 例 4.2. 在图 4.1 中,模(eat $Cmeal)显然比三个模板(eat $Ibreakfast + eat $Ilunch+eat $Idinner)要好。前者提供了一个更一般的模板表示。 图 4.1:模板分配的例子 特殊性:另一方面,本章期望产生的动词模板具备特殊性,否则结果可能会变得非常模糊。就像例 4.3 展示的那样,算法可以将任意宾语都概念化到某些非常高层的概念上,例如 activity,thing,item 等。这样概念化的模板就会变得特别模糊而无法精确描述一个动词的语义。 例 4.3. 对于图 4.1 中的动词短语,eat $Cactivity 是比 eat $Cmeal 更一般性的动词模板。这样,一些错误的动词模板,例如 eat shopping 或 each fishing 也会被识别为 eat 的有效例子或短语。相反,eat $Cmeal 具有更好的特殊性。因为 breakfast、lunch、dinner 是三个典型的 meal 的实例。而 meal 几乎不再具有其它典型实例。 贡献 一般性和特殊性显然是相互矛盾和制约的。因此如何在一般性和特殊性之间做取舍构成了本文的主要挑战。本文使用最小描述长度(minimum deion length,MDL)作为调和这两个目标的基本框架。更具体的,本章的贡献可以被总结如下: 本章提出了动词模板——一种新型的动词语义表现形式。本章提出了两类动词模板:概念化模板和俗语模板。动词模板可以表示动词的歧义性,因此可以用来识别动词的不同语义。 本章提出了关于动词模板抽取的两个原则:一般性和特殊性原则。本章阐述了这两个原则间的互相制约,并提出了一个基于最小描述长度的无监督模型来产生高质量动词模板。 本章进行了多样的实验。其结果证实了模型和算法的有效性。 第 3 节 问题模型 本节形式化定义从动词短语中提取动词模板的问题。此模板提取过程中要计算两个值:(1)每个动词短语的动词模板分配;(2)每个动词的动词模板分布。接下来,本文将首先给一些基本的定义。接着提出了一种基于最小描述长度的问题模型,并证明了该模型的合理性。请注意,不同动词的模板是独立的,在问题和算法描述中可以单独考虑每一个动词。因此在以下的说明中,将只讨论针对某一给定动词的解法。 3.1. 初步定义 首先给出动词短语、动词模板、模板分配的标准定义。 定义 4.4(动词短语) 一个动词短语 p 在自然语言中是一个动词及其对应宾语。本文把短语 p 中的宾语表示为 op。 定义 4.5 (动词模板)。动词模板是一个或若干个动词短语的总结。每个动词短语只有一个动词模板对应。对应于同一动词模板的动词短语,其动词语义是相似的。本文用 a 表示动词模板。考虑两种动词模板: 俗语模板是“verb $object”的形式。只有动词短语“verb object”可以对应模板“verb$object”。 概念化模板是“verb$concept”形式。动词短语“verbobject”可以对应于“verb$con- cept”,仅当 object 和 concept 具有 isA 关系。将概念化模板 a 中的概念表示为 ca 。 定义 4.6(模板分配)。模板分配是一个函数 f : P → A,它将任意一个动词短语映射到其对应动词模板模板。 f ( p) = a 表示 p 的模板是 a。注意每个模板可以有任意数量的对应的动词短语。 表 4.1 中展示了一些动词短语、动词模板和模板分配的例子。 短语的分布是已知的(在本章的实验中,其动词短语分布是从 Google Syntactic Ngam 数据库中抽取的)。所以本文中模板抽取的目标倾在于找到 f 函数。有了 f 函数,就可以很容易的计算模板分布 P(A): (责任编辑:本港台直播) |