本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】一周论文 | Attention模型在NMT任务中的应用和进展

时间:2016-11-27 09:10来源:118论坛 作者:118KJ 点击:
NMT是热门研究领域之一,尤其是Google和百度都推出了自己的NMT翻译系统,在工业界、学术界和翻译界都引起了轩然大波,一时间对NMT技术的研究和讨论达到了顶峰。Attention模型在NLP中

  NMT是热门研究领域之一,尤其是Google和百度都推出了自己的NMT翻译系统,在工业界、学术界和翻译界都引起了轩然大波,一时间对NMT技术的研究和讨论达到了顶峰。Attention模型在NLP中最早的使用正是在NMT领域出现的,包括横扫很多领域的seq2seq+attention解决方案,都是在NMT模型的基础上进行相应的一些小改动而成的。所以,本期PaperWeekly带大家看一看最近两年Attention模型在NMT领域中的研究进展,本文包括以下paper:

  1、Neural Machine Translation by Jointly Learning to Align and Translate, 2015

  2、Effective approaches to attention-based neural machine translation, 2015

  3、Modeling Coverage for Neural Machine Translation, 2016

  4、Agreement-based Joint Training for Bidirectional Attention-based Neural Machine Translation, 2016

  5、Improving Attention Modeling with Implicit Distortion and Fertility for Machine Translation, 2016

  Neural Machine Translation by Jointly Learning to Align and Translate作者

  Dzmitry Bahdanau, KyungHyun Cho and Yoshua Bengio

  单位

  1、Jacobs University Bremen, Germany

  2、Universite ? de Montre ?al

  关键词

  NMT, attention

  文章来源

  ICLR 2015

  问题

  这篇论文首次提出在NMT中使用attention的机制,可以使模型自动确定源句子中和目标词语最相关的部分,相比于基本的encoder-decoder方法提高了翻译效果。

  模型

  该论文使用的基本模型是一个双向RNN的encoder-decoder的结构。在这篇论文之前,encoder部分都是直接把输入句子encode成一个固定长度的上下文向量c,然后decoder再根据该向量来产生翻译。但是由于句子长度不定,这种做法对长句子的效果不理想。

  

报码:【j2开奖】一周论文 | Attention模型在NMT任务中的应用和进展

  上图是这篇论文提出的模型结构,作者首次提出了在decoder中加入一种attention的机制。直观上理解,就是decoder可以决定更多地注意原句子中的某些部分,从而不必把原句子中的所有信息都encode成一个固定的向量。具体来讲,上下文向量ci由下式计算得出:

  

报码:【j2开奖】一周论文 | Attention模型在NMT任务中的应用和进展

  其中,

  

报码:【j2开奖】一周论文 | Attention模型在NMT任务中的应用和进展

  其中,

  上式中的a便是alignment model,可以用来估计位置j附近的输入和位置i的输出之间的匹配程度。本论文中的alignment model是一个前馈神经网络,它和模型中的其它部分一起进行训练。

  资源

  1、英法翻译数据集 ACL WMT ’14

  2、一个基本的RNN encoder-decoder模型的实现 GroundHog

  相关工作

  1、2013年,一个类似的aligning的方法被提出用于手写体生成。论文:Graves(2013) Generating sequences with recurrent neural networks

  2、2014年,seq2seq的神经网络模型用于机器翻译。论文:Sutskever(2014) Sequence to sequence learning with neural networks

  简评

  本论文创新性地在NMT中提出了attention的机制,可以使模型在每一步注意到源句子中不同的部分,从而提高了NMT的效果,该效果的提升对于长句子的翻译尤其明显。

  Effective approaches to attention-based neural machine translation作者

  Minh-Thang Luong, Hieu Pham, Christopher D. Manning

  单位

  Computer Science Department, Stanford University

  关键词

  NMT;Global Attention;Local Attention

  文章来源

  EMNLP 2015

  问题

  Attention机制引入极大提升了NMT的翻译质量,但对于Attention实现架构的讨论还很少,尤其是全局Attention的计算效率问题。本文就是讨论各种优化策略,包括Global Attention, Local Attention,Input-feeding方法等。

  模型

  Global Attenion,生成上下文向量c_t时,考虑原文编过程中的所有隐状态。

  

报码:【j2开奖】一周论文 | Attention模型在NMT任务中的应用和进展

  Local Attention,对于每个正在生成的译词,预测一个原文对齐的位置,只考虑该位置前后一个窗口范围内的原文编隐状态。

  

报码:【j2开奖】一周论文 | Attention模型在NMT任务中的应用和进展

  Input-feeding,用一个额外的向量,来记住哪些词是已经翻译过的,即考虑了coverage的问题。

  

报码:【j2开奖】一周论文 | Attention模型在NMT任务中的应用和进展

  资源

  1、训练数据:WMT14 (4.5M句对,116M 英文词,110M德文词)

  2、开发集:newstest2013 (3000句)

  3、测试集:newstest2014(2737句)和newstest2015(2169句)

  4、代码和模型共享在:

  相关工作

  主要是follow了(Bahdanau et al., 2015; Jean et al., 2015)的工作,对Attention的机制进行了探讨和改进。

  简评

  English-German的实验结果,较不用attention的方法提升了5个多点BLEU,充分证明了attention的有效性。

  实验结果的表格详细列出了各种改进方法带来的收益,跟进者不妨仔细看看(以及第5节的分析),可以很快了解各种折腾的方向。

  

报码:【j2开奖】一周论文 | Attention模型在NMT任务中的应用和进展

  完成人信息

  微博 @MyGod9,语智云帆创始人,机器翻译老兵,NMT追随者,[email protected]

  Modeling Coverage for Neural Machine Translation作者

  Zhaopeng Tu, Zhengdong Lu, Yang Liu, Xiaohua Liu, Hang Li

  单位

  诺亚方舟实验室,清华大学

  关键词

  NMT

  文章来源

  ACL2016

  问题

  解决经典神经机器翻译模型中存在的over-translation(过度翻译)和under-translation(翻译不足)的问题。

  模型

  在传统NMT模型中,加入统计机器翻译策略中的coverage方法,来追踪、判断原始句子是否被翻译,如下图、公式所示。

  

报码:【j2开奖】一周论文 | Attention模型在NMT任务中的应用和进展

  

  

报码:【j2开奖】一周论文 | Attention模型在NMT任务中的应用和进展

  其中,C为新引入的coverage向量。

  相关工作

  前序文章:Neural Machine Translation by Jointly Learning to Align and Translate

  简评

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容