搜狗机器翻译团队获得 WMT 2017 中英机器翻译冠军_本港台直播_J2开奖直播

业界 | 2017/0422/225446.html">搜狗机器翻译 2017/0627/244742.html">团队获得 WMT 2017 中英机器翻译冠军

2017-08-12 09:33 来源:机器之心搜狗 /技术 /操作系统

原标题：业界 | 搜狗机器翻译团队获得 WMT 2017 中英机器翻译冠军

搜狗语音交互技术中心

机器之心报道

每年的第三季度都是机器学习相关的顶级学术会议密集召开的时期，今年也不例外。其中，作为自然语言处理领域顶级国际会议之一的 EMNLP 2017 将于今年 9 月在丹麦首都哥本哈根举行，与此同时，第二届机器翻译大会（WMT 2017）将会作为本次会议的分论坛同时召开。今年的一大亮点是，WMT 首次增设了中文和英文间的新闻数据翻译任务。

搜狗语音交互技术中心代表搜狗参加了这次含金量极高的比赛，该中心研发的搜狗神经网络机器翻译（Sogou Neural Machine Translation）系统在「中文-英文」机器翻译任务中获得了冠军。这个系统采用了哪些新方法、新结构，又为我们提供了哪些新思路？让我们结合论文聊一聊 Sogou NMT。

搜狗机器翻译团队获得 WMT 2017 中英机器翻译冠军

WMT 是机器翻译领域的国际顶级评测比赛之一。近年来，几乎所有的研究机构在发表关于机器翻译新方法的论文时，都会以 WMT 数据集作为实验数据，并以 BLEU 评分来衡量方法的有效性，给出一个量化的、可比的翻译质量评估，因此，WMT 数据集已经成为机器翻译领域公认的主流数据集。

事实上，WMT 是一个开始自 2006 年 ACL 的国际机器翻译研讨会，提供统一的数据集，内容通常集中于新闻，并将结果以竞赛的形式呈现出来，旨在促进机器翻译研究机构之间的学术交流和联系，推动机器翻译研究和技术的发展。从去年开始，WMT 正式从一个研讨会（workshop）变成了一项会议（conference），作为自然语言领域顶级会议 ACL 或 EMNLP 的分会，延续竞赛的性质，扩展任务的范围以及语言对的数量。今年的 WMT 2017 将跟随 EMNLP 一起在 9 月举行。作为新闻机器翻译任务的 7 个语言对之一，中英语言对首次出现在比赛任务中，并由南京大学、厦门大学、中科院等机构联合协助提供相关数据。共有 20 支团队提交了中文-英文翻译系统、15 支团队提交了英文-中文翻译系统。参赛队伍包括美国的约翰霍普金斯大学（JHU）、俄勒冈州立大学、美国空军研究实验室；加拿大的加拿大国家研究院（NRC）、英国的爱丁堡大学、罗彻斯特大学；中国的中科院计算技术研究所、厦门大学等。

Sogou NMT 在中文到英文翻译任务中名列第一。其中，在中文到英文翻译任务的八项评价标准中（其中四项为 BLEU 及 BLEU 的变体），获得了七项第一。

Sogou NMT 的模型主体采用了业界主流的神经机器翻译模型：基于循环神经网络（recurrent neural network, RNN）的多层编码器-解码器（encoder-decoder）结构，并带有注意力（attention）模块。

神经机器翻译在大规模翻译任务上第一次获得超越统计机器翻译（SMT）的效果不过是 2014 年的事情（著名的 RNN encoder-decoder 结构就发表在 2014 年的 EMNLP 上），如今三年过去了，机器翻译顶级论文中已经几乎难以见到统计机器翻译的身影，神经机器翻译已经成为了机器翻译领域的主流。如今，简单地对神经网络模型的套用已经不足以被顶级会议接收，研究者们讨论的核心问题通常是如何优化神经网络结构以便解决机器翻译中的词对齐、罕见词、长句等难点问题。2014 年提出的注意力（attention）模块就是针对性处理因为不同语言语法结构不同产生的语序不同、来源词与目标词对齐难的问题。注意力机制通过选全局性的选择关注源语言橘子的不同部分，动态地构建上下文向量来对传统 RNN 编码器-解码器进行了优化，极大改善了语言调序，尤其是中长距离调序问题。最近，谷歌的学者又提出了完全基于注意力的翻译架构，注意力机制不再是连接编码器和解码器的模块，而是模型的主体，取得了性能上的突破。当然，从工程实践角度，如今主流的机器翻译系统，无论是谷歌、脸书还是搜狗，都仍然使用 RNN 编码器-解码器结构。

编码器和解码器都有三层，其中编码器的第一层为双向层。与谷歌的 GNMT 双向八层结构相比这个神经网络并没有那么深，因此在效率上能够获得不小的提高。并且解码器中，只有最底层接受语义向量的语境信息。根据论文所言，增加层数给中文到英文的翻译系统带来了 0.8 BLEU 的性能提升。

除此之外，Sogou NMT 系统还使用了如下四类技巧来提升模型质量：

用命名实体标注模型（NER）和神经网络实体翻译器对人名的罕见词进行翻译；

多模型集成（ensemble）来给出最优翻译结果；

重打分/重排序（rescore or rerank）机制选出最优翻译。

采用了 Geoffrey Hinton 团队提出的网络层正则化（layer normalization）技术，直播，极大提高了模型训练效率，同时改善了模型的翻译质量。

(责任编辑：本港台直播)