利用俗语的先验知识 可以从外部词典中直接找到许多动词的俗语。如果在字典中,一个动词短语被认定为俗语,它应该被直接分配到俗语模板。特别的,本章工作中首先从线上字典中爬取了 2868 个动词短语。然后在步骤 2 中,当 p 是其中一个俗语短语时,将它排除在分配更新的过程之外。 第 4 节 实验 4.1. 设置 动词短语数据模板分配会使用动词短语的分布 P(p)。为了计算 P(p),实验使用在 Google Syntactic N-Grams 的“English All”数据集。该数据集包含从 Google Books 英文语料库中提取的统计句法 ngrams 的信息。它包含 22,230 个不同的动词,和 147,056 个动词短语。对于一个固定的动词,计算动词短语 p 的概率为: 这里 n(p) 时 p 在语料库中的出现的次数,分母部分是对于所有动词短语的次数加和。 IsA 关系本章使用 Probase 来计算给定概念的情况下实体出现的概率 PT (e|c),同时 也计算给定实体概念出现的概率 PT (c|e): 这里 n(e, c) 是 c 和 e 同时出现在 Probase 的频数。 测试数据实验使用两个数据集来验证方法在长文本和短文本上上的有效性。短文本数据集包含来自于 Twitter [38] 的 160 万个 tweets 数据。长文本数据集包含来自于 Reuters [5] 的 21,578 个新闻文章。 4.2. 动词模板的统计信息 现在简要介绍本文提取的动词模板。对于所有的 22,230 个动词,实验列举最频繁的 100 个动词的统计信息。在过滤掉出现次数 n(p) < 5 的噪声动词短语后,每一个动词平均有 171 个不同的动词短语和 97.2 个不同的动词模板。53% 的动词短语有实体概念化模板。47% 的动词短语有俗语模板。表格 4.2 列举了 5 个有代表性的动词与它们出现最频繁的模板。这个案例分析表明(1)有关动词模板的定义反映了动词的一词多义性;(2)大多数算法得到的动词模板是有意义的。 4.3. 有效性 为了评估动词模板的效果,实验使用了两个评测指标:(1)coverage,表示方法可以找到多少对应于自然语言中的动词短语的模板;(2)precision,表示有多少动词短语和它对应的模板正确匹配。实验通过以下的公式来计算这两个指标: 这里 n cover 是在测试数据中找到的对应有模板的动词短语的数量,n all 是动词短语的总数,n correct 是对应的动词模板正确的动词短语的数量。为了评估 precision,实验从测试数据中随机选择了 100 个动词短语并让志愿者去标注被分配模板的正确性。当一个模板太过具体或者太过一般,实验认为它是一个不正确的动词短语-模板匹配(见图 4.1 中的例子)。为了比较算法好坏,实验同样列出了模板总结的两种基准方法的结果。 表 4.2:一些提取的动词模板。在括号中的数字是动词短语在 Google Syntactic N-Gram 数据中出现的频数。 #phrase 表示这个动词的不同动词短语的个数。 Idiomatic Baseline (IB) 每一个动词短语是一个俗语。 Conceptualized Baseline (CB) 对于每一个动词短语,它被分配给一个实体概念化模板。对于宾语 op,基准算法选择最高出现概率的概念,即 argmaxc P(c|op),来构建这个模板。 在 Tweets 和 News 数据集上,动词模板分别覆盖了 64.3% 和 70% 的动词短语。考虑到在 Google N-Gram 数据中的拼写错误以及解析错误,这样的覆盖率是可以接受的。图 4.2 展示了本章方法以及基准方法提取的动词模板(VP)的查准率。结果显示本章方法相比于基准方法在精确度方面有很大的提升。结果同时显示了对于动词的语义理解来说实体概念化模板与俗语模板都是必要的。 第 5 节 应用:基于上下文的实体概念化 如同在引言中所提及的,动词模板可以用来优化基于上下文的实体概念化任务(通过考虑实体的上下文来提取一个实体的概念)。本节将动词模板与主流的基于实体的方法 [87] 相结合来优化这一问题。 图 4.2: 准确率 (责任编辑:本港台直播) |