而后,团队必须重新去关注用户实际想要翻译哪些内容,而这通常并非标准而合理的语言。谷歌发现很多人并不使用谷歌翻译来翻译完整、复杂的句子。他们用它来翻译古怪的小碎片般的语言。如果你希望网络能够处理用户查询的数据流,你就必须确保能在这个方向上前进。神经网络对用于训练的数据非常敏感。正如Hughes向我提到的:“神经翻译系统正在学习一切。它就像一个孩子。 “他笑道。”它会说,‘ 哦爸爸发疯的时候才会这么说话! ’ 你必须要小心。” 不管怎样,他们需要确保整个事情快速可靠,从而不给用户带来困扰。在2月,神经系统翻译10个字的句子需要10秒钟。公司不可能向用户推出这么慢的东西。翻译小组开始对一小部分用户进行延迟实验,假装翻译时间会延迟,以观察用户的忍耐程度。他们发现,如果翻译时间只延长了两倍甚至五倍,便不会被用户注意到。如果延长了八倍,就会被注意到。团队不需要确保所有语言都是这样。在(如法语或中文等)高流量语言的情况下,翻译服务几乎不会放慢速度。团队想知道,对于那些更模糊的语言翻译,用户不会因为轻微的延迟而拒绝更好的翻译质量。他们希望能防止人们放弃使用翻译、也防止人们转去使用竞争对手的翻译服务。 Schuster承认,他并不知道他们是否能够使它变得足够快。他记得在餐室中他曾对Chen说:“肯定有一些我们不知道的东西能使它变得足够快,但我不知道它是什么。“ 不过,他知道他们需要用更多的计算机——更多的图形处理器来重新配置神经网络进行训练。 Hughes去问Schuster的想法: “我们是不是应该要求一千台GPU?” Schuster回答,“为什么不是2000台?” 十天后,他们拿到了新加的2000个GPU处理器。 到4月份,原来的三人阵容已变成超过30人。其中一些人,如Le,来自Google Brain;也有许多人来自 Google Translate。 5月,Hughes为每对语言配置了一种临时主管,每个主管都将进展结果录入一个大型共享的绩效评估电子表格。任何时候,都有至少20个人正在进行他们自己的独立的、长达一周的实验和处理意外问题。有一次某个模型开始毫无理由地把所有的数字从句子中剔除。经过了几个月才解决这个问题。 “人们几乎气得要大吼。”舒斯特说。 到春季末期,各组的工作都聚集在一起。团队引入了一些诸如“word-piece” 模型, “coverage penalty”, “length normalization” 之类的东西。Schuster说,每个部分都把结果改进了几个百分点,但合起来它们有显著的效果。一旦模型被标准化,它将是一个单一的多语言模型,将随时间而改进,而不是目前使用的150个不同的翻译模型。不过, 当创造一个工具通过机器学习来实现普遍化时,实现自动化的过程总是需要超出寻常的人类天分和努力。这个项目也是如此:每层要多少神经元? 1024还是512?要多少层?一次运行多少句子?训练多久?很多决定都依赖内心深处的直觉。 “我们做了数百次实验,”Schuster告诉我,“直到有一天我们知道,我们可以在一个星期后停止训练。你总是会问:我们什么时候能停下来?我怎么知道我完成了?你永远不知道你做完了。机器学习的机制从来不是完美的。你需要训练,在某些时候你必须停止。这是这个系统的一个非常令人痛苦的特质。对一些人来说这很难。这是有点像艺术 ,像用画笔作画。有些人做得更好,有些人做的比较糟。“ 到5月份,Google Brain团队了解到,他们唯一能够使系统作为产品快速实现的方法是,在T.P.U.上运行Dean所要求的专用芯片。正如Chen所说:“我们甚至不知道代码是否能工作。但是我们知道如果没有T.P.U.,肯定是干不成的。“他记得,他们曾经一个接一个地去向Dean请求,”请为我们保留一些T.P.U.的份额。“Dean为他们保留了份额。然而,T.P.U.无法顺利工作。Wu花了两个月坐在硬件团队的人的旁边,试图找出这是为什么。他们不只是调试模型,他们也调试芯片。神经翻译项目将成为对这整个基础设施投资概念的一个验证。 6月的一个星期三,Quartz lake办公室的会议上,人们对百度发表在领域核心期刊上的一篇文章议论纷纷。Schuster 让会议室恢复了秩序。 “是的,百度出了一篇新论文。感觉就像有人看透了我们做的东西——论文有类似的结构,类似的结果。“百度公司的BLEU分数基本吻合 Google 在2月和3月内部测试中取得的成绩。 Le并未感到不快。他的结论是,这是一个迹象,表明谷歌是在正确的轨道上。 “这个系统与我们的系统非常相似。”他安静地说。 (责任编辑:本港台直播) |