本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】学界 | 详解指针生成网络:自动生成长段文本的抽象摘要(2)

时间:2017-04-30 01:43来源:报码现场 作者:118开奖 点击:
解码器的这种以任意顺序自由地生成包括像 beat 这种并未出现在源文本中的单词的能力,使得序列到序列的模型在抽象式摘要中成为一个很有潜力、强大的

解码器的这种以任意顺序自由地生成包括像 beat 这种并未出现在源文本中的单词的能力,使得序列到序列的模型在抽象式摘要中成为一个很有潜力、强大的解决方案。

两大问题

不幸的是,用这种方法进行文本摘要时会被两大问题困扰:

问题 1:有时候这种摘要会不准确地复制事实细节(例如,Germany beat Argentina 3-2)。这对像「2-0」这种罕见的或者词汇集之外的词来说尤其常见。

问题 2:有时候摘要会重复它们本身(例如,Germany beat Germany beat Germany beat…...)

事实上,这种问题对循环神经网络而言是很常见的。在深度学习中总是这样,很难去解释清楚为什么网络会出现一些特殊的行为。如果你感兴趣,请看下面我对这两个问题做出的解释。如果你对这两个问题的原因不感兴趣,请直接跳到后文的解决方案部分(即用指针生成网络来实现更加容易的复制)。

对问题 1 的解释:基于 attention 的端到端模型让从源文本中复制一个单词 w(w 即 word,代表一个单词)变得更加困难。在接收到经过几个层的计算(这些计算包括将单词 w 与它的 word embedding 进行匹配)才传递过来的信息之后,网络必须以某种方式去恢复原始单词。

尤其是,如果 w 是那些在训练的时候不经常出现的罕见词汇,并且有着较差的 word embedding(即它与完全不相关的单词聚集在一起),那么,从网络的角度来说,w 在很多单词中是无法无分的,所以也就不可能被生成。

即便 w 有着较好的 word embedding,网络也可能仍然很难去生成它。例如,RNN 摘要系统经常将一个人名替换成另一个人名(例如 Anna → Emily),或者将一个城市替换为另一个城市(例如,Delhi → Mumbai)。这是因为女性的名字或者印度的城市名的 word embeddings 倾向于聚集在一起, 在尝试重建原始单词的时候,这可能造成混淆。

简而言之,这貌似是执行一个简单的复制(copying)操作的不必要的困难方式,复制操作是摘要任务中的基本操作。

对问题 2 的解释:重复或许是由解码器对输入(即之前的摘要单词)的过度依赖造成的,而非解码器状态存储了长时间的信息。这可以通过以下事实来看出:单个重复的单词通常触发无休止的循环。例如,Germany beat Germany这么一个微小的错误会导致灾难性的 Germany beat Germany beat Germany beat Germany beat…...,而不是错误不太严重的 Germany beat Germany 2-0。

指针生成网络来实现更加容易的复制(解决问题 1)

我们针对问题 1(不准确复制)的解决方案是指针生成网络。这是一个可以通过指针从源文本中选择复制单词的混合网络,同时还保留了从固定词汇集中生成单词的能力。下面我们以这张图进行逐步解释!

码报:【j2开奖】学界 | 详解指针生成网络:自动生成长段文本的抽象摘要

上图展示了解码器的第三步,截至目前我们已经生成了一部分摘要 Germany beat。和之前一样,我们计算出注意力分布和词汇分布。然而,这次我们还计算出了生成概率 pgen(此处公式、符号不好展示,具体参见原文),它是介于 0 到 1 之间的标量。它代表从词汇集中生成一个单词的概率,而不是从源文本进行复制。生成概率pgen 被用来对词汇分布Pvocab(用来生成单词) 和注意力分布 aa(用来指向元单词 w_iwi)进行加权,并通过如下所示的公式将两者结合成最终分布 Pfinal,结合公式如下所示:

这个公式的含义是:生成单词 w 的概率等于从词汇集生成 w 的概率再加上指向原文本任何位置出现该词的概率。

与基于 attention 的端到端系统相比,指针生成网络具有以下优点:

1. 指针生成网络让从源文本生成单词变得更加容易。这个网络仅需要将足够多的 attention 集中在相关的单词上,j2直播,并且让pgen 足够的大。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容