本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】深度 | 逐层剖析,谷歌机器翻译突破背后的神经网络架构是怎样的?(2)

时间:2016-11-19 21:44来源:118论坛 作者:118KJ 点击:
注意力机制的一个缺点是我们现在必须为每一个解码器的输出执行所有经过编码的源句的计算。虽然这有利于句子之间的翻译,但可能给长输出带来问题。

注意力机制的一个缺点是我们现在必须为每一个解码器的输出执行所有经过编码的源句的计算。虽然这有利于句子之间的翻译,但可能给长输出带来问题。在计算术语中,如果你的源句与 NN 的长度相当,同时你的目标句与 MM 的长度相当,我们就可以将编码器-解码器架构中的 O(M)O(M) 的解码器带入注意力架构中的 O(MN) O(MN) 中。虽然不是最好的方法,但至少在这个任务上,注意力机制优点远远大于缺点。

注:你或许会注意到编码器和解码器(之前架构中的 S)之间的直接连接已经消失了。虽然很多标准的编码器-解码器结构维持了这个直接连接,但是 GNMT 架构会消除这个连接。GNMT 架构会以信息能从编码器端转移到解码器端的方式来形成注意机制。

  

wzatv:【j2开奖】深度 | 逐层剖析,谷歌机器翻译突破背后的神经网络架构是怎样的?

图:Bahdanau 等人的论文「Neural Machine Translation by Jointly Learning to Align and Translate"(2014) 中的图像。显示了使用注意力对翻译成绩的影响(以 BLEU 得分的形式)。RNN 搜索是带有注意力的架构,后面的数字指的是训练样本的长度。

V3:双向编码器层(BI-DIRECTIONAL ENCODER LAYER)

虽然注意力机制允许根据解码上下文检索句子的不同部分,atv直播,但还是有一个问题。注意机制基本上会问这个编码器的存储输出「你是不是跟这个相关?」并用答案来决定提取什么样的信息。如果编码器输出自己没有充分的语境,它们就不太可能给出一个好答案。

加上后面的单词的相关信息,例如编码器输出由左右两边的词决定,显然是有益的。如果有一个完整的句子可用,人类几乎肯定会用完整的语境来决定一个词的意思和语境。那为什么我们要强迫计算机不去使用所有的信息呢?而且这对它们真的是一个障碍。

  

wzatv:【j2开奖】深度 | 逐层剖析,谷歌机器翻译突破背后的神经网络架构是怎样的?

加上这个双向性的最简单的方法是运行两个 RNN,一个在句子中前进,一个在句子中后退。然后,对每一个词,我们连接(concatenate)或者添加所产生的向量输出,从两边产生一个带有语境的向量。在你翻译一种有不同排序(例如从左向右)的语言时(例如无论用另外一种语言翻译这个语言,还是把这个语言翻译成另一种语言),双向的编码器就会变得更重要。GNMT 架构连接(concatenate)它们,潜在的优势是向前和向后的 RNN 的结果只有一半大小。由于双向层最终会成为 GNMT 中的一个瓶颈,同时 RNN 中的参数数量也会几何增长,所以这不是一个不重要的节省。

V4:「为深度学习增加深度」

对于许多神经机器翻译的架构而言,增加深度是精确模型中的关键组成部分。GNMT 架构也通过添加大量的层来增加模型的精度——研究者们使用了 8 层编码器与 8 层解码器的 16 层结构,令目前大多数最好的机器翻译系统望尘莫及。

在编码器中,谷歌的模型具有一个双向的 RNN 层,随后是七个单向的 RNN 层。解码器则是八个单向 RNN 层。

在大多数文章的翻译中,全部层都是双向的可以增加准确性。具有全部双向层的模型可以获得相同或更好的结果,谷歌并没有这么做,我们将在下一部分解释 GNMT 这么做的理由。

  

wzatv:【j2开奖】深度 | 逐层剖析,谷歌机器翻译突破背后的神经网络架构是怎样的?

循环神经网络在训练中有很多不确定性。事实上,这种深度的标准神经网络需要进行大量的训练,和其他类型的系统不同,它相对简单,不会出现许多时间步。我们会在未来的尝试解决这个问题。

V5:并行

GNMT 构架最主要的动力就是它的实用性。这个令其在和标准编码器(解码器架构 decoder architectures)相比较的时候显得有些局限和奇怪。为了将像 GNMT 那样的系统转化为产品,并行化就是必要的了。它不仅仅训练地更快、允许更多的试验,同时也让产品部署得更快。

我们现在看到的这幅图表不仅仅是机器翻译模型的构架,它更是个相关图(dependency graph)。在一个结点开始计算,所有接近你的结点都需要是已经计算过了的。即使你有无限的计算量,但仍然需要符合相关图表流。同样的,你想最小化相关性就可能相比于相似层级需要更多的计算量。

  

wzatv:【j2开奖】深度 | 逐层剖析,谷歌机器翻译突破背后的神经网络架构是怎样的?

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容