立刻会有人问,机器翻译与 image caption 有什么一毛钱关系吗?回想一下,现在的 NMT 技术路线在做翻译时不需要利用任何一种语言的特定信息,也就是说任何 2 种语言间的翻译在 NMT 来看是一样的。让我们发散一下,这种技术框架,对于需要返回输入数据的定长向量表达,或者寻求一系列它的映射空间下对应向量的需求,很可能是一种不错的选择,只要能把数据合适地灌进框架中。这已经被蒙特利尔大学和多伦多大学的 paper 证实了。论文中用 CNN 替换了 encoder ,在 attention-based encoder-decoder 框架下完成了 image caption 任务,如下图所示:
此外类似的 papers 还有 Donahue et al.,2014;Fang et al., 2014; Karpathy and Li, 2014; Kiros et al., 2014; Mao et al.,2014等。 值得一提的是,让 decoder 利用 video 的时域结构, Li et al. 2015和 Venugopalan et al. 2015用类似的 attention-based 方法产生了 video 描述,如下图所示:
同理,attention 机制 + 从一种结构化的输入映射到另一种结构化的输出的框架已经成功应用到多种任务上。 Vinyals et al.2015应用到离散优化问题上,解决了旅行商问题。Kyunghyun et al. 2015应用此框架到更多的多媒体任务中。 9. 展望 关于机器翻译这个特定任务的全流程已经有很多研究者评论了,这里说的展望不特指任何一种 task 。 目前大多数还是以 word 为单一单元建模句子序列,是否应该考虑 hierarchical 单元。在 RNN 中的反向传播算法的时间代价与序列长度成正比。是否有更好的算法能处理更长的序列,例如段落,文档等。在处理序列时,大部分的学习很可能还是局部的,权重还是不加区别地在线更新的,是否可以改变这种传统形式。 NMT 考虑的是自然语言中的逻辑关系,它还可以扩展到以其他机制建立联系的任务上吗?例如:基因序列、社交网络等以 relation 维系的图结构。 虽然 google 已经用 one-shot 和 zero-shot 方式,但是我们还是要思考如何引入其他信息源来做 multimodal learning 。 参考文献 Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. “Neural machine translation by jointly learning to align and translate.” arXiv preprint arXiv:1409.0473 (2014). Bastien, Frédéric et al. “Theano: new features and speed improvements.” arXiv preprint arXiv:1211.5590 (2012). Bergstra, James et al. “Theano: a CPU and GPU math expression compiler.” Proceedings of the Python for scientific computing conference (SciPy) 30 Jun. 2010: 3. Bridle, J. S. (1990). Training Stochastic Model Recognition Algorithms as Networks can lead to Maximum Mutual Information Estimation of Parameters. In Touretzky, D., editor, Advances in Neural Information Processing Systems, volume 2, (Denver, 1989). Brown, Peter F et al. “The mathematics of statistical machine translation: Parameter estimation.” Computational linguistics 19.2 (1993): 263-311. Cho, Kyunghyun et al. “Learning phrase representations using RNN encoder-decoder for statistical machine translation.” arXiv preprint arXiv:1406.1078 (2014). Cho, Kyunghyun, Aaron Courville, and Yoshua Bengio. “Describing Multimedia Content using Attention-based Encoder–Decoder Networks.” arXiv preprint arXiv:1507.01053 (2015). Denil, Misha et al. “Learning where to attend with deep architectures for image tracking.” Neural computation 24.8 (2012): 2151-2184. Donahue, Jeff et al. “Long-term recurrent convolutional networks for visual recognition and deion.” arXiv preprint arXiv:1411.4389 (2014). Fang, Hao et al. “From captions to visual concepts and back.” arXiv preprint arXiv:1411.4952 (2014). (责任编辑:本港台直播) |