基于实体的方法此方法利用在上下文中出现过的实体来概念化一个实体 e。令 E 是上下文中的所有实体的集合。定义在给定上下文 E 下 c 是实体 e 的概念的概率为 P(c|e,E)。通过假设所有的实体在给定概念下是独立的,可以得到以下公式来计算 P(c|e, E ): 本节的方法 本节在上下文中增加了动词作为附加信息来实体概念化 e。当 e 是一个动词的对象的时候,利用动词模板可以推导出 P(c|v),即在给定动词 v 的动词短语下观察到有关概念 c 的实体概念化模板的概率。因此,在给定上下文 E 和实体 e 还有动词 v 的情况下,概念 c 出现的概率是 P(c|e,v,E)。类似于等式 4.17,P(c|e,v,E) 可以通过以下公式来计算: 注意到如果 v + e 在 Google Syntactic N-Grams 数据中被观察到,这意味着算法已经学习到了这个模板,可以使用这些模板来进行实体概念化。也就是说,如果 v + e 被映射到了一个实体概念化模板,则使用模板的概念作为实体概念化的结果。如果 v + e 是一个俗语模板,则停止实体概念化。 设置与结果对于在实验部分使用的两个数据集,本实验同时利用上述两个方法来概念化在动词短语中的宾语。然后,选择概率最大的概念作为对象的概念标签。本实验随机选取了两种方法所对应标签不同的 100 个短语。对于每一个不同,使用人工标注其结果是否好于(better)等于(equal)或差于(worse)不适用动词模板的方法的结果。结果显示在图片 4.3 中。在这两个数据集上,利用了动词模板后,精确度都显著的被提高了。这表明了动词模板对于语义理解任务是有意义的。 图 4.3:实体概念化结果 第 6 节 小结 动词的语义对于文本理解来说非常的重要。本章提出了动词模板,用来区分动词的不同语义。论文建立了基于最小描述长度的模型,来平衡动词模板的一般性与特殊性。同时本章提出了一个基于模拟退火的算法来获得动词模板。算法使用了模板的典型性来使候选模板产生的过程收敛速度加快。实验验证了模板的高精确度与覆盖率。本章还展示了动词模板在基于上下文的实体概念化中的成功应用。 (责任编辑:本港台直播) |