该文是基于Neural Machine Translation by Jointly Learning to Align and Translate之上的工作,引入了统计机器翻译中的Coverage方法来尝试避免NMT中的一些问题。根据文章的试验结果,这种方法能够提升翻译效果。由于写作此文时笔者未作实验,因此实际效果有待进一步衡量。 Agreement-based Joint Training for Bidirectional Attention-based Neural Machine Translation作者 Yong Cheng, Shiqi Shen, Zhongjun He, Wei He, Hua Wu, Maosong Sun, Yang Liu 单位 Tsinghua University 关键词 Bidirectional NMT; Attention 文章来源 IJCAI 2016 问题 由于自然语言错综复杂的结构,单向的注意力模型只能引入注意力机制的部分regulization。文章提出了联合训练双向的注意力模型,尽可能使注意力在两个方向上保持一致。 模型 模型的中心思想就是对于相同的training data,使source-to-target和target-to-source两个模型在alignment matrices上保持一致。这样能够去掉一些注意力噪声,atv,使注意力更加集中、准确。更确切地说,作者引入了一个新的目标函数:
其中表示source-to-target基于注意力的翻译模型,而表示target-to-source的模型。表示对于句子s source-to-target的alignment matrix,而表示target-to-source的。是损失函数,可以衡量两个alignment matrix之间的disagree程度。 对于,有几种不同的定义方法: 1、Square of addition(SOA)
2、Square of subtraction(SOS)
3、Multiplication(MUL) 相关工作 作者文中说的是bidirectional translation的alignment matrices要一致;还有另外一篇文章“Agreement on Target-bidirectional Neural Machine Translation”是说decoding的时候可以正向或者反向产生目标句子,把这二者进行联合训练。另外,最近也有很多关于bidirectional training或者类似思想的文章,比如“Dual Learning for Machine Translation. Computation and Language”将reinforcement的概念引入了bidirectional training当中,直播,“Neural Machine Translation with Reconstruction” 希望能从target hidden state恢复出source sentence 简评 这篇文章胜在idea,很巧妙地想到了让正反向的注意力一致来改进attention。 Improving Attention Modeling with Implicit Distortion and Fertility for Machine Translation作者 Shi Feng, Shujie Liu, Nan Yang, Mu Li, Ming Zhou, Kenny Q.Zhu 单位 Shanghai Jiao Tong University, Microsoft Research 关键词 NMT, Attention, Fertility, Distortion 文章来源 COLING 2016 问题 使用attention机制解决NMT中调序和繁衍率的问题。 模型 模型非常简单,即在attention机制中将前一时刻的context vector c作为输入传入当前时刻attention中(命名为RecAtt)。如图:
通过这样的RecAtt机制,attention部分的网络相当于记忆了之前时刻的context。 相关工作 ACL 2016李航老师组的工作 Modeling Coverage for Neural Machine Translation利用了attention机制来解决了NMT中“欠翻译”和“过翻译”的问题。 简评 该文章的创新之处在于提出将attention计算得到的context vector c作为attention的输入,这样就是的attention机制带有一种recurrent的意味。 总结 (责任编辑:本港台直播) |