2016 年是人工智能不断突破的一年。这一年,我们经历了语音识别的突破、风格迁移的繁盛、神经机器翻译的进步,等等。而这每一条消息的宣布机器之心都紧紧跟随。于是在岁末年关,机器之心将回顾过去一年中我们曾发布过的爆款文章。流量不代表文章质量,但选出的每一篇文章却代表了机器之心读者的关注点,以及我们自己的价值观。精彩的一年,我们一起见证,一起回顾。 该系列回顾文章第一篇选择的是谷歌神经机器翻译的突破,统计时该篇文章的流量达到了 6 万多。 十年前,我们发布了 Google Translate(谷歌翻译),这项服务背后的核心算法是基于短语的机器翻译(PBMT:Phrase-Based Machine Translation)。自那时起,机器智能的快速发展已经给我们的语音识别和图像识别能力带来了巨大的提升,但改进机器翻译仍然是一个高难度的目标。 今天,我们宣布发布谷歌神经机器翻译(GNMT:Google Neural Machine Translation)系统,该系统使用了当前最先进的训练技术,能够实现到目前为止机器翻译质量的最大提升。我们的全部研究结果详情请参阅我们的论文《Google`s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation》(见文末)[1]。 几年之前,我们开始使用循环神经网络(RNN:Recurrent Neural Networks)来直接学习一个输入序列(如一种语言的一个句子)到一个输出序列(另一种语言的同一个句子)的映射 [2]。其中基于短语的机器学习(PBMT)将输入句子分解成词和短语,然后很大程度上对它们进行独立地翻译,而神经机器翻译(NMT)则将整个输入句子视作翻译的基本单元。这种方法的优点是:相比于之前的基于短语的翻译系统,这种方法所需的工程设计更少。当其首次被提出时,NMT 在中等规模的公共基准数据集上就达到了可与基于短语的翻译系统媲美的准确度。 自那以后,研究者已经提出了很多改进 NMT 的技术,其中包括模拟外部对准模型(external alignment model)来处理罕见词 [3],使用注意(attention)来对准输入词和输出词 [4] 以及将词分解成更小的单元以应对罕见词 [5,6]。尽管有这些进步,但 NMT 的速度和准确度还没能达到成为 Google Translate 这样的生产系统的要求。我们的新论文 [1] 描述了我们怎样克服了让 NMT 在非常大型的数据集上工作的许多挑战,以及我们如何打造了一个在速度和准确度上都已经足够能为谷歌的用户和服务带来更好的翻译的系统。
来自对比评估的数据,其中人类评估者对给定源句子的翻译质量进行比较评分。得分范围是 0 到 6,其中 0 表示「完全没有意义的翻译」,6 表示「完美的翻译」。 下面的可视化图展示了 GNMT 将一个汉语句子翻译成英语句子的过程。首先,该网络将该汉语句子的词编码成一个向量列表,其中每个向量都表征了到目前为止所有被读取到的词的含义(「编码器(Encoder)」)。一旦读取完整个句子,解码器就开始工作——一次生成英语句子的一个词(「解码器(Decoder)」。为了在每一步都生成翻译正确的词,解码器重点注意了与生成英语词最相关的编码的汉语向量的权重分布(「注意(Attention)」,蓝色链接的透明度表示解码器对一个被编码的词的注意程度)。
使用人类评估的并排比较作为一项标准,GNMT 系统得出的翻译相比于之前的基于短语的生产系统实现了极大的提升。在双语人类评估者的帮助下,我们在来自维基百科和新闻网站的样本句子上测定发现:GNMT 在多个主要语言对的翻译中将翻译误差降低了 55%-85% 以上。
我们的系统产出一个翻译案例,其输入句子采样自一个新闻网站。这个地址(https://drive.google.com/file/d/0B4-Ig7UAZe3BSUYweVo3eVhNY3c/view?usp=sharing)可以看到更多随机采样自新闻网站和书籍的输入句子翻译样本。 今天除了发布这份研究论文之外,我们还宣布将 GNMT 投入到了一个非常困难的语言对(汉语-英语)的翻译的生产中。现在,移动版和网页版的 Google Translate 的汉英翻译已经在 100% 使用 GNMT 机器翻译了——每天大约 1800 万条翻译。GNMT 的生产部署是使用我们公开开放的机器学习工具套件 TensorFlow 和我们的张量处理单元(TPU:Tensor Processing Units),它们为部署这些强大的 GNMT 模型提供了足够的计算算力,同时也满足了 Google Translate 产品的严格的延迟要求。汉语到英语的翻译是 Google Translate 所支持的超过 10000 种语言对中的一种,在未来几个月,我们还将继续将我们的 GNMT 扩展到远远更多的语言对上。 (责任编辑:本港台直播) |