许静芳:我想这个挑战应该是对所有机器翻译团队都类似的一个有趣的现象是业内翻译做得好的团队大多来自搜索公司。搜索和翻译本身是密不可分的,这个密不可分首先是数据层面,语料的挖掘,搜索本身天然有优势,在这里面,其实都涉及很多自然语言处理、数据挖掘的问题,搜索积累的经验可以很快地应用到翻译上来。 机器之心:相较于谷歌和百度的神经机器翻译,搜狗这次发布的神经机器翻译有哪些差异性的特征? 许静芳:首先,对翻译问题的理解、重视和投入问题,在不同的公司不同的阶段是有差异的。其次,聚焦在技术上面,NMT 从发展到应用在商业系统里也就这一、两年左右的事情,本身这个技术正处在非常快速的迭代的过程中。如果现在要去比较我们(搜狗)和百度、谷歌的差异,我们自己本身在翻译的模型,语料的挖掘,特别是深度学习模型很大,用的语料很多。在模型在分布式训练上,搜狗也有自己的创新。我们和谷歌最新的工作去对比,在某些方法上,可以看出我们比谷歌做得好,最终在中英两种语言互译的效果优于也验证了这个事情。搜狗比谷歌更有动力去做好翻译这件事情。 搜狗翻译技术持续改进,未来可期 机器之心:刚才谈到模型,现在 seq2seq+attention 的模型已经在 NMT 及其他众多 NLP 任务上取得了非常好的效果,我也注意到搜狗的神经网络做到了 5 层。之前有些论文提到了通过增加更多层的网络来取得更好的效果,您认为这个准确吗,通过不断增加网络层数来提升效果? 许静芳:我觉得这是方法之一,但不是唯一的方法,而且层数变深了以后,在数据和模型训练,包括网络的结构和优化方法上,都应该去适配这样的网络结构,所以我觉得适当加深层数是一种有效的方法,但不是唯一的途径。 刘 洋:增加层数肯定有帮助,能够提高模型的表达能力,但是层数增加的越多,训练的难度也越大,需要更先进的技术。 机器之心:这种模型(seq2seq+attention)在效果方面是否已经达到了上限,从而需要新的模型解决? 许静芳:我觉得远远没有,从算法层面,这种网络的结构只是其中之一,包括损失函数的设置、先验知识连接、模型后处理等方面都有很多工作要做。 刘 洋:肯定有提升空间。目前看来,有两个问题非常明显。第一个问题是漏词。很多用户反映神经机器翻译系统在生成译文时经常漏掉重要的词没有翻译,严重影响了译文的忠实度。 另一个问题是缺乏篇章一致性。目前的翻译都按照句子为基本单位进行翻译,没有考虑篇章层面的上下文信息,会导致翻译同一个篇章出现同一个词在不同句子中的译法不一样。 搜狗独创的「深度学习」训练模型 机器之心:除此之外,搜狗的 NMT 还有哪些正在应用的模型?
搜狗搜索机器翻译负责人翟飞飞 翟飞飞:目前很多通用的 NMT 相关方法我们都在使用,同时依托天工研究院,我们和清华的机器翻译团队也合作进行了很多模型技术上的探索,取得了不错的成果,翻译性能稳步提升。 刘 洋:清华的机器翻译团队由孙茂松教授领导,我是技术负责人。在这次与搜狗合作研发机器翻译系统的过程中,我们多年积累的技术和经验得到充分体现。另外,我们也受到最新的前沿技术的启发,如生成对抗网络和 zero-shot learning。相关的技术目前正在申请专利和撰写论文,预计不久会公开。 机器之心:不同语言的语料规模差别很大,英文中的语料非常多,但中文语料就显得非常少。请问,是否能将 NMT 的研究成果应用在不同语言语料构建上,从而提升其他语言 NLP 研究水平? (责任编辑:本港台直播) |