本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】【干货】神经机器翻译全流程解析,one(4)

时间:2017-04-02 23:53来源:668论坛 作者:j2开奖直播 点击:
简单的框架不区分输入句子的长度(意指信息含量多少),这显然是违背直觉的。就连 zip 个文件的结果也与文件含有的信息复杂程度相关。 为了后续讨论

  简单的框架不区分输入句子的长度(意指信息含量多少),这显然是违背直觉的。就连 zip 个文件的结果也与文件含有的信息复杂程度相关。

  为了后续讨论简单,我们假设句子长度的大小与句子含有信息量成正比。于是想到不把句子表示成固定长度的向量,而是让它体现出“层次”信息,BiRNN 分别从 2 个方向独立地“读”句子一遍。

  假设表示从第 1 个 word 到第 j 个 word 的 summary 信息,同理,表示从句子尾部到第 j 个 word 的 summary 信息。由于序列本质,RNN 更倾向记住近期的信息,所以两者合在一起,更好地表示在整句上下文中的表达,所以把上述表达称为 context-dependent 词表达。利用这个机制可以把句子表达成变长形式(相对于固定维度的 summary )。

  考虑了源语言句子的变长表示之后,decoder 对于每个目标 word 来说,也需要选择性地把注意力集中在一个或多个 context-dependent 词表达或辅助向量( annotation vector )上。可是每次应该怎么聚焦呢?想象一下,当人已经翻译了 i-1 个 word 后,正在翻译第 i 个 word ,人在翻译时是怎么决定的呢?通常,人在看每个词(或他的 context-dependent 信息)时,会综合考虑当前已经翻译的结果来决定此时的 应该怎么翻译,也就是说,是否与下一个目标词相关,相关度有多大。下图是反映上述过程的一种方式而已:

  

【j2开奖】【干货】神经机器翻译全流程解析,one

  Dzmitry Bahdanau 2014提出在 decoder 中引入一个 NN 来做上述的 attention model(记为 AM )。此 AM 的输入是前一时刻的 decoder 隐状态和 context-dependent 词表达。AM 可用1层 NN 和 1 个标量表示。下图把得分用到了源语言句子中的每一个 word 上:

  

【j2开奖】【干货】神经机器翻译全流程解析,one

  一旦得到每个源 word 的得分后,就可以用 softmax进行归一化:

  

  这里做归一化的原因有多种解释,其中一种解释是把 attention 机制纳入到概率论框架中,直播,认为 attention 的权重是 decoder 在所有 T 个源语言 word 中选择第 j 个 context-dependent 词表达的概率。这样就可以在这个分布下计算 context-dependent 词表达的期望:

  

  上述期望向量 以对所有 word 不同的重视程度概括了整个源语言句子的信息。辅助向量( context-dependent 向量)被认为是 AM 根据 attention 的权重来决定的相关性。随后,用代替上面阐述的 decoder 中 3 步中的

  7. Soft attention机制的外延

  当前 attention mechanism 已经成了 deep learning 中的一个热点,不仅仅体现在 NLP 上 ,也体现在图像研究中 [Cho et al., 2015]。下图表示在没有特意地针对对齐做监督的情况下,模型自己学习到了某种 attention 或对齐的一个例子:

  

【j2开奖】【干货】神经机器翻译全流程解析,one

  线条的粗细表示 AM 模型给出的 attention 权重大小。通常弱监督形势常被用来表示 reinforcement learning ,在此 attention 机制等同了弱监督效果,除了给定翻译的目标句子外,没有任何中间的对应和对齐的直接监督信息。

  此外,再分别对比下 neural turing machine [Graves et al. 2014] 和 memory network [Weston et al. 2014]与带有 attention 机制的 NMT 。首先,假设把 context-dependent 词表达当作 memory 中的内容,把 attention 机制当作 NTM 中 read head ,把 decoder 作为 NTM 的控制器,这样看 NMT 与 NTM 很相似。参考 2015 年 Sukhbaatar et al 描述的 memory network ,除了各自论文中对于特定应用的实现细节不一样之外,基于 attention 的NMT、NTM 和 memory network 的思想是相通的。我们都好奇这类方法最终会以怎样的形态体现,让我们拭目以待吧。

  8 .机器翻译与image/videocaption

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容