Dean不这么认为。他说, “我们可以在年底之前做到这一点,如果我们全神贯注去做的话。”人们如此喜欢和钦佩Dean的一个原因是,他长期以来总是能全神贯注地办成事。另一个原因是,当他真诚地说出“只要我们全神贯注就能办成“的时候,他一点也不怕尴尬。 休斯很确定,这种系统转换不会在短时间内发生。但他也不拒绝尝试。他回去后告诉他的团队: “让我们为2016年做准备吧。我不会是那个说Jeff Dean无法带来改变的人。” 一个月后,他们终于能够运行一个并行实验以比较Schuster的新系统和Hughes的旧系统。Schuster想用英语 - 法语语言对来测试它,但Hughes建议他尝试别的语言对。 “英语 - 法语翻译已经很好了,改进不会很明显。“ 这是一个令Schuster无法抗拒的挑战。评估机器翻译的基准度量被称为BLEU分数,它将机器翻译与大量可靠的人类翻译的平均值进行比较。当时,英语 - 法语的最佳BLEU分数值高达20多。将分数提升一个点,将被认为是非常好的改进; 提升两个点就会被认为是是杰出的。 在英语到法语语言对上面,神经系统相比旧系统带来了高达 7 分的改进。 Hughes告诉Schuster的团队,在过去四年里,他们在自己的系统中从没有出现过这么强劲的改进。 为了确保这不是一个侥幸,他们也雇人进行人工对比。在用户体验得分系统中,样本句子的分值从0到6,神经系统带来的平均改善达0.4,这大致相当于旧系统在其整个生命周期中带来的总增益。
谷歌的 Quoc Le(右),他的工作证明了神经翻译的合理性,Mike Schuster 则帮助将这项工作应用于谷歌翻译。来源:Brian Finke for The New York Times 3月中旬,Hughes 给他的团队发了一封电子邮件:旧系统上的所有项目都将立即暂停。 7. 让概念成为产品 在那之前,神经翻译团队只有三个人 ——Schuster、Wu 和 Chen ——但随着Hughes的支持,更广泛的团队开始合并。他们星期三下午 2 点在 Schuster 的引领下来到了位于Quartz Lake 的Google Brain办公室内的一个角落房间。会议有十几人参加。当Hughes或Corrado在场时,他们往往是唯一的两名英语母语人士。工程师们有的讲中文,越南语,有的讲波兰语,俄语,atv,阿拉伯语,德语或日语,虽然在现实中他们大多使用高效的混杂语数学来交流。在Google,人们并不总是清楚谁正在组织开会,但这一次的会议目的则很清楚。 即便如此,他们需要采取的步骤仍不是完全清楚。 “其中有很多不确定性 —— 整个过程的不确定性,”Schuster告诉我。 “软件,数据,硬件,人。“ 他伸出他长而宽松的手臂,轻轻在肘部弯曲, ”这就像在大海里游泳,你只能看到这远。“他把他的手伸出到胸前8英寸那么远。 “目标在某处,或许它就在那里。” 大多数Google的会议室都配有视频会议显示器,当闲置时,会显示极高分辨率的Google+照片,包括田园风光、北极光或帝国议会大厦的照片。Schuster向其中一个屏幕打了个手势,那个屏幕上正显示着华盛顿纪念碑的夜间一瞬。 “外人会认为,每个人都有双筒望远镜,可以看到前方。“ 让他们到达此地的理论工作已经用光,但要把它变成一个可行的产品 ——这被学术科学家称为“纯粹的”工程的部分——仍非常难。首先,他们需要确保他们在良好的数据上进行训练。 Google用来进行“阅读”训练的数十亿词语料主要是由中等复杂性的完整句子组成,这些句子就像你可能在海明威作品里读到的那些。其中一些是公共领域文献,统计机器翻译的最初语料是加拿大议会的数百万页完整双语记录。然而,它的大部分是从10年来由热心者众包的人类翻译作品中筛选而来。该团队的语料仓库里有9700万个互不相同的英语”词“。但是一旦他们删除了表情符号、拼写错误和冗余,剩下的工作词汇只有大约16万。 (责任编辑:本港台直播) |