2014年Bahdanau的Neural Machine Translation by Jointly Learning to Align and Translate,使NMT超过了传统的PBMT,后来的NMT论文基本都是在这个文章基础上进行的改进。 2015年Elliott的工作Multi-language image deion with neural sequence models. 也是在给定源语言和图片的情况下,生成目标语言。不过并没有使用attention机制。 简评 该文章的创新之处,在于对图片描述文字进行翻译的时候,考虑到了图片本身的特征信息并引入attention机制。在源语言文本生成出错的情况下,因为有图片信息参考,在一定程度上,可以减轻这种错误带来的影响。不过文章并没有利用外部英德平行语料,这可以考虑作为后面的改进方向。 完成人信息 中国科学技术大学 Zero-resource Machine Translation by Multimodal Encoder-decoder Network with Multimedia Pivot作者 Hideki Nakayama,Noriki Nishida 单位 The University of Tokyo 关键词 pivot, multimodal, NMT 文章来源 arXiv, 2016.11 问题 在没有平行语料的情况下,用image当作pivot来实现机器翻译 模型 整体上讲,模型分成两部分。第一部分是多模态embedding,采用pairwise ranking loss来定义损失函数;第二部分是用RNN来实现的decoder,跟image caption里面的decoder类似。对这个问题来说,我们的训练数据包括$i^{s}$:源端的图片,$d^{s}$:源端图片对应的句子描述;$i^{t}$:目标端的图片,$d^{t}$:目标端图片对应的句子描述,和源端用的不一样的语言。文中提出了2个模型来解决这个问题:
模型1的多模态端包括了图片的encoder和源句子的encoder。图片encoder可以对源图片和目标图片通用。多模态端用$i^{s}$,$d^{s}$进行训练,损失函数为:
$E^{v}$表示图片的encoder(比如用VGG-16提取图片的feature), $E^{s}$表示源句子的encoder(比如用RNN),$d^{s}_{ng}$表示和源端图片不相关的描述。Decoder端用$i^{t}$,$d^{t}$进行训练,损失函数为标准的 cross-entropy loss(称作图片损失):
模型2比模型1更复杂一点。在源端增加了一个目标句子描述的encoder。因此,在多模态embedding的学习中,j2直播,损失函数增加了目标图片和目标图片描述的pairwise ranking loss.
在decoder的学习中,模型2除了前面的公式2定义的图片损失外,还增加了目标描述的reconstruction loss,即从多模态端输入目标描述,希望通过embedding和decoder重建这个目标描述。
资源 两个Multilingual image-deion的数据集:IAPR-TC12(包含2万图片以及英语和德语的描述)和 Multi30K(包含3万图片以及英语和德语的描述) 相关工作 对于没有平行语料的机器翻译,多数文章是用某种常见语言作为pivot,比如“Neural Machine Translation with Pivot Languages”, 用英语作为西班牙语法语以及德语法语之间的pivot。缺点是翻译的时候还是要经过pivot那一步。 另外,还要一些工作是用一个模型实现many to many的翻译。在这种情况下,没有平行语料的语言对也能用这个模型进行翻译。不需要经过pivot那个中间层,但是效果一般会差一点。比如“Google’s Multilingual Neural Machine Translation System”这篇文章。 简评 (责任编辑:本港台直播) |