尽管 ROUGE 分数与人类判断总体上有很好的相关性,但 ROUGE 最高分的总结不一定是最可读或最自然的。当我们仅通过强化学习来训练模型使 ROUGE 得分最大化时,这就成为一个问题。我们观察到我们具有最高 ROUGE 分数的模型也会生成几乎不可读的摘要。 为了发挥两个领域的优势,我们的模式同时受到教师强迫和强化学习的训练,能够利用词级和整个摘要层面的监督使摘要具有连贯性和可读性。特别是我们发现 ROUGE 优化的强化学习有助于改善回调(即所有需要总结的重要信息实际上已经被总结),并且词级学习监督能确保良好的语言流畅性,使得摘要更连贯可读。 图 8:监督学习(红色)和强化学习(紫色)的组合,演示了我们的模型同时学习本地和全局奖励并同时优化可读性和整体 ROUGE 分数的方法 直到最近,CNN / Daily Mail 数据集中的抽象摘要的最高 ROUGE-1 分数是 35.46。结合解码器内部注意 RNN 模型的联合监督和强化学习训练,这个分数提高到了 39.87,并且,atv,如果仅是强化学习,该分数为 41.16。图 9 显示了我们和其他的现有模型的摘要分数。即使我们的纯强化学习模型具有较高的 ROUGE 分数,我们监督的+ 强化学习模型具有较高的可读性,因此它与该摘要任务更加相关。注意: 由于使用稍微不同的数据格式,Nallapati et al 的结果与我们的和其他数据格式不能直接相比,但仍然给出了很好的参考。 图 9: CNN / Daily mail 数据集的摘要结果,比较我们的模型与现有的抽象式和提取式方法 样本输出 对于真正的摘要,开奖,这样大的改进意味着什么?现在我们来看一些根据数据集拆分的文档形成的多语句摘要。在 CNN / Daily Mail 数据集上训练后,我们的模型和它更简单化的基线生成了以下示例。正如你所看到的,这些摘要已经大大改善,但是还需要更多的工作来使它们完美。 图 10:我们的模型生成的更多的摘要例子,对比同一篇文章的人工撰写的摘要 为了说明我们在文本摘要方面的主要贡献带来的影响,图 11 显示了如果不考虑内部注意力和强化学习训练,我们模型的输出是如何离题的。
图 11:我们的模型生成的示例摘要,有和没有我们的主要贡献。原始文章中不存在的新词将以绿色显示。摘要中重复的短语显示为红色。 结论 我们的模型显著提高了在多语句摘要生成方面的最新技术水平,优于现有的抽象式模型和提取式基线。我们相信,我们的贡献(解码器内部注意模块和组合的训练目标)可以改善其他的序列生成任务,特别是较长的输出。 我们的工作也涉及诸如 ROUGE 等自动评估指标的限制,这表明需要更好的指标来评估和优化摘要模型。一个理想的度量指标在摘要的连贯性和可读性方面应与人类的判断相一致。当我们使用这样的指标来强化摘要模型时,摘要的质量可能会进一步提高。 以下为相关论文的摘要介绍: 论文:A Deep Reinforced Model for Abstractive Summarization 用于抽象式摘要的基于注意 RNN 的编码器-解码器模型已经在短输入和输出序列上取得了良好的表现。但是,对于更长的文档和摘要,这些模型通常会包含重复的和不连贯的短语。我们引入了一种带有内部注意(intra-attention)的神经网络模型和一种新的训练方法。这种方法将标准的监督式词预测和强化学习(RL)结合到了一起。仅使用前者训练的模型常常会表现出「exposure bias」——它假设在训练的每一步都会提供 ground truth。但是,当标准词预测与强化学习的全局序列预测训练结合起来时,结果得到的摘要的可读性更高。我们在 CNN/Daily Mail 和 New York Times 数据集上对这个模型进行了评估。我们的模型在 CNN/Daily Mail 数据集上得到了 41.16 的 ROUGE-1 分数,比之前的最佳模型高出了显著的 5.7 分。其也是第一个在 New York Times 语料库上表现良好的抽象式模型。人类评估也表明我们的模型能得到更高质量的摘要。 原文链接:https://metamind.io/research/your-tldr-by-an-ai-a-deep-reinforced-model-for-abstractive-summarization (责任编辑:本港台直播) |