答:Google 发布的系统综合了 NMT(Neural Machine Translation,神经机器翻译)领域近年来的研究成果。其所使用的 Seq2Seq 翻译模型、Attention 机制、以及深层 LSTM,在此前已有 Bengio 团队等多篇论文提及,从 Google 发布的论文的参考文献中可以看到。 此外,Google 针对大数据和深层模型的训练,进行了诸多工程方面的优化。例如,其使用了自身研发的针对深度学习的计算机器—TPU,加速了训练和解码。 机器之心:那么百度是否有相关的研究? 答:百度在这方面的研究起步很早,成果也非常多。而且,我们的神经网络翻译系统早在 2015 年 5 月就正式上线发布了。 我们从 2014 年开始便尝试做基于神经网络的翻译系统,2015 年发布在线翻译系统的时,BLEU(Bilingual Evaluation Understudy)指标已经比传统的 SMT(统计机器翻译)系统高六、七个点。我们同时还开发了离线版本,可以在手机上使用, 当时学术界对于深度学习的翻译方法到底是否实用还有一番争论,我们很早就发现基于 Attention 机制的 Seq2Seq 深度学习模型是有用的,经过多次实验验证,在很多集合上超过了传统方法。同时,针对 NMT 本身存在的一些问题,进行了技术攻关,短短 3 个月的时间便完成了开发和上线。当大家还在讨论 Attention 机制时,我们已经结合了原有的统计方法上线。可以说,百度翻译是全球首个互联网神经网络翻译系统。 机器之心:NMT(基于神经网络的翻译系统)效果就真的好于 SMT(基于统计的翻译系统)吗?或者说他会在哪个方面会好于 SMT 呢? 答:机器翻译目前是两大流派,一大流派是统计翻译模型(SMT),在整个业界已经持续了 20 多年的研究。另一个就是基于神经网络的翻译模型(NMT),过去的两年发展比较迅速。 从很多公开的评测上能看出,基于神经网络的翻译系统已经取得了比以前系统更好的成绩。这两大翻译系统我们一直在向前推进研究。总体上来说,基于神经网络的翻译系统,在长句翻译上有明显优势。 机器之心:可以从技术角度具体解释下吗? 答:从整体看,在数据训练比较充分,比如有大数据集的时候,NMT 效果是好于 SMT 的。一句英文翻译成一句中文,这算一个句对。如果中文和英文之间的双语语料对有很多,那么 NMT 整体上好于 SMT。 原因就在于,SMT 以前用的都是局部信息,处理单位是句子切开以后的短语,最后解码时将几个短语联系在一起,并没有充分利用全局信息。NMT 则利用全局信息,整个句子的信息解码后,才生成结果。这就是它的优势,也是其在流畅性上更胜一筹的原因。 再进一步,翻译有一个很重要部分是「语序调整」。比如中文会把所有的定语都放在中心词前面,英文则会把修饰中心词的介词短语放在后面,机器常混淆这个顺序。NMT 在语序学习上的优势也带来了它翻译的流畅性。 而 SMT 在短句或者数据较小的情况下,优势较为明显。以成语翻译为例,实际上不是意译而是直译,必须在语料库中有对应内容才能翻译出来。NMT 的翻译过程决定了其有时不能很好的处理这类问题。 如今互联网用户的需求是多种多样的。翻译涉及口语、简历、新闻等多领域,开奖,一种方法很难满足所有的需求。因此现在百度的翻译系统中包含了 SMT、NMT,甚至还有传统的 EBMT。所以,一个线上服务的翻译系统,其实是综合的系统。 不过从整个大趋势看,随着神经网络技术的进一步发展,它会越来越成为主流。目前在我们的中、英、日、韩等多个系统中,它就是主流。 机器之心:那么能否通过不断增加网络层数来提升 NMT 效果? 答:在网络层数的增加过程中,成本、复杂度也随之提升。并不是线性地增加网络层数,收益比就更高,我们会去继续研究,但并不代表不断增加层数就一定是好方法。 就翻译本身这个任务,现在有两大问题造成翻译效果不好。一是在于,训练语料本身是有噪音的,我们花费了大量时间和精力研究怎样找到更好的训练语料,怎样清洗出更好的语料。第二个是模型本身的不完美性,我们会不断优化。这两大方面的工作都是我们的重点。 获取数据与解决语料稀疏问题 机器之心:刚才有提到 NMT 是非常依赖数据规模的,以及训练语料中的噪音问题,如何获得高质量的训练数据? 答:我们能获取的语料很多,比如网络上存在的大量翻译句对,但这些数据存在三个问题。 (责任编辑:本港台直播) |