【j2开奖】专访 | 机器之心独家对话百度 NLP：先解决语义理解，再谈机器翻译取代人类(2)_本港台直播_J2开奖直播

答：Google 发布的系统综合了 NMT（Neural Machine Translation，神经机器翻译）领域近年来的研究成果。其所使用的 Seq2Seq 翻译模型、Attention 机制、以及深层 LSTM，在此前已有 Bengio 团队等多篇论文提及，从 Google 发布的论文的参考文献中可以看到。

此外，Google 针对大数据和深层模型的训练，进行了诸多工程方面的优化。例如，其使用了自身研发的针对深度学习的计算机器—TPU，加速了训练和解码。

　　机器之心：那么百度是否有相关的研究？

答：百度在这方面的研究起步很早，成果也非常多。而且，我们的神经网络翻译系统早在 2015 年 5 月就正式上线发布了。

我们从 2014 年开始便尝试做基于神经网络的翻译系统，2015 年发布在线翻译系统的时，BLEU（Bilingual Evaluation Understudy）指标已经比传统的 SMT（统计机器翻译）系统高六、七个点。我们同时还开发了离线版本，可以在手机上使用，

当时学术界对于深度学习的翻译方法到底是否实用还有一番争论，我们很早就发现基于 Attention 机制的 Seq2Seq 深度学习模型是有用的，经过多次实验验证，在很多集合上超过了传统方法。同时，针对 NMT 本身存在的一些问题，进行了技术攻关，短短 3 个月的时间便完成了开发和上线。当大家还在讨论 Attention 机制时，我们已经结合了原有的统计方法上线。可以说，百度翻译是全球首个互联网神经网络翻译系统。

　　机器之心：NMT（基于神经网络的翻译系统）效果就真的好于 SMT（基于统计的翻译系统）吗？或者说他会在哪个方面会好于 SMT 呢？

答：机器翻译目前是两大流派，一大流派是统计翻译模型（SMT），在整个业界已经持续了 20 多年的研究。另一个就是基于神经网络的翻译模型（NMT），过去的两年发展比较迅速。

从很多公开的评测上能看出，基于神经网络的翻译系统已经取得了比以前系统更好的成绩。这两大翻译系统我们一直在向前推进研究。总体上来说，基于神经网络的翻译系统，在长句翻译上有明显优势。

　　机器之心：可以从技术角度具体解释下吗？

答：从整体看，在数据训练比较充分，比如有大数据集的时候，NMT 效果是好于 SMT 的。一句英文翻译成一句中文，这算一个句对。如果中文和英文之间的双语语料对有很多，那么 NMT 整体上好于 SMT。

原因就在于，SMT 以前用的都是局部信息，处理单位是句子切开以后的短语，最后解码时将几个短语联系在一起，并没有充分利用全局信息。NMT 则利用全局信息，整个句子的信息解码后，才生成结果。这就是它的优势，也是其在流畅性上更胜一筹的原因。

再进一步，翻译有一个很重要部分是「语序调整」。比如中文会把所有的定语都放在中心词前面，英文则会把修饰中心词的介词短语放在后面，机器常混淆这个顺序。NMT 在语序学习上的优势也带来了它翻译的流畅性。

而 SMT 在短句或者数据较小的情况下，优势较为明显。以成语翻译为例，实际上不是意译而是直译，必须在语料库中有对应内容才能翻译出来。NMT 的翻译过程决定了其有时不能很好的处理这类问题。

如今互联网用户的需求是多种多样的。翻译涉及口语、简历、新闻等多领域，开奖，一种方法很难满足所有的需求。因此现在百度的翻译系统中包含了 SMT、NMT，甚至还有传统的 EBMT。所以，一个线上服务的翻译系统，其实是综合的系统。

不过从整个大趋势看，随着神经网络技术的进一步发展，它会越来越成为主流。目前在我们的中、英、日、韩等多个系统中，它就是主流。

　　机器之心：那么能否通过不断增加网络层数来提升 NMT 效果？

答：在网络层数的增加过程中，成本、复杂度也随之提升。并不是线性地增加网络层数，收益比就更高，我们会去继续研究，但并不代表不断增加层数就一定是好方法。

就翻译本身这个任务，现在有两大问题造成翻译效果不好。一是在于，训练语料本身是有噪音的，我们花费了大量时间和精力研究怎样找到更好的训练语料，怎样清洗出更好的语料。第二个是模型本身的不完美性，我们会不断优化。这两大方面的工作都是我们的重点。

获取数据与解决语料稀疏问题

机器之心：刚才有提到 NMT 是非常依赖数据规模的，以及训练语料中的噪音问题，如何获得高质量的训练数据？

答：我们能获取的语料很多，比如网络上存在的大量翻译句对，但这些数据存在三个问题。

(责任编辑：本港台直播)