本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】学界 | 详解指针生成网络:自动生成长段文本的抽象摘要(3)

时间:2017-04-30 01:43来源:报码现场 作者:118开奖 点击:
2. 指针生成网络甚至可以复制原文本中的非正式单词(如例子中的 2-0)。这是此方法带给我我们的主要福利, atv ,让我们能够处理那些没出现过的单词,

2. 指针生成网络甚至可以复制原文本中的非正式单词(如例子中的 2-0)。这是此方法带给我我们的主要福利,atv,让我们能够处理那些没出现过的单词,同时也允许我们使用更小规模的词汇集(需要较少的计算资源和存储空间)。

3. 指针生成网络能够被更快地训练,尤其是训练的前几个阶段。

如此一来,指针生成网络就是两种方法中最好的,它用指向(pointing)和生成(generating)把抽取式摘要和抽象式摘要结合起来了。

码报:【j2开奖】学界 | 详解指针生成网络:自动生成长段文本的抽象摘要

用汇聚的方法来消除重复(解决问题 2)

为了解决问题 2(重复性摘要),我们采用了一种叫做汇聚(Coverage)的技术。其思想就是,利用注意力分布区追踪目前应被覆盖的单词,并且当网络再次注意同一部分的时候,予以惩罚。在解码器的每一个时间步长 t 上,汇聚向量 ct 是截至目前所有的注意力分布 at'的和。如下式所示:

码报:【j2开奖】学界 | 详解指针生成网络:自动生成长段文本的抽象摘要

换言之,某个特定的源单词的收敛就是到此刻它所受到 attention 的和。在我们运行的例子中,汇聚可以按照这种方式来构建:其中,黄色阴影的强度代表汇聚向量的大小。

最后,我们引入额外的损失项来惩罚汇聚向量 c't 和新的注意力分布 a't 之间的任何交叠:如下所示:

码报:【j2开奖】学界 | 详解指针生成网络:自动生成长段文本的抽象摘要

这样可以避免网络继续重视(从而摘录)那些已经被覆盖到的词汇。

输出示例

现在,我们来看一下上述几个系统在一些实际数据上的对照试验。我们在 CNN/Daily Mail 数据集上训练并测试我们的网络,这个数据集包含配以多句式摘要的新闻文章。

下面的例子展示的是源文本(关于英式橄榄球的新闻文章)和原本就有的参考摘要,以及由我们的三个系统所生成的自动摘要。通过将光标悬停在自动摘要系统生成的摘要中的一个单词上边,你会在源文本中看到注意力分布被投影成了黄色。这告诉你,当网络生成这个词的时候,它正在「注意」源文本中的那个词。

对于指针生成模型,生成概率 pgen 的值也被投影成了绿色阴影。将光标悬停在自动摘要文本中的某一个单词上时,会显示出这个单词对应的生成概率 pgen 的大小。

注意:为了看到整个 demo 的全貌,你可能需要缩小你的浏览器窗口。但是在移动端,demo 不会有效果。

(译者注:请访问原文以体验 demo 中的三个自动摘要系统)

码报:【j2开奖】学界 | 详解指针生成网络:自动生成长段文本的抽象摘要

结果:

基本的序列到序列系统不能复制诸如 Saili 这样的词汇集之外的单词,相反,它会输出「未知标志」[UNK]。相比之下,指针生成系统在复制这类单词时没有问题。

尽管报导的事件发生在新西兰,但是基本的序列到序列系统错误地说成球员是荷兰人,球队是爱尔兰的,也许这反映了训练数据的内容主要有关欧洲,存在偏差。当系统在生成这些单词时,网络却在极度地关注 Munster (爱尔兰南部一个省) 和 Francis,这貌似说明系统在尽力去正确地完成复制。

由于未知原因,短语「a great addition to their backline」被基本的序列到序列系统替换成了「a great addition to their respective prospects」。尽管网络直接关注单词 backline,但是它没有被正确地复制。

基本的指针生成摘要系统会不断地重复自身,我们注意到,它每一次都在关注源文本中的同一个部分。与之对应,指针生成+汇聚模型并不包含重复,我们可以看到,尽管这个模型在生成的摘要中两次使用了单词 Saili,但是网络在这两次生成 Saili 的时候所关注的 Saili 在关注源文本中出现的地方却是完全不同的(在博客原网址的 demo 中显而易见),这就是汇聚系统(converge syatem)在起作用的证据。

绿色阴影显示,每当网络在「编辑」源文本的时候,生成概率一般都会很高。例如,当网络生成简化一句话的片段时,或者跳转到文本的另一部分(例如,will move to the province… and was part of the new zealand under-20 side...)时,pgen 都会很高。

(责任编辑:本港台直播)

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容