Facebook宣布机器翻译全面采用神经网络,现每日处理45亿次翻译 2017-08-04 13:18 来源:新智元 Facebook /操作系统 原标题:Facebook宣布机器翻译全面采用神经网络,现每日处理45亿次翻译 20万,这是新智元今天达到的用户总数。在飞向智能宇宙的旅程中,感谢每一位和新智元同行的朋友。您的关注和支持是“新智元号”星舰永不枯竭的燃料。 20 万,每一位乘客对我们来说都弥足珍贵。我们希望加深对每一位乘客的了解,恳请您对这份问题不多、且不涉及任何隐私的调查问卷给出宝贵的反馈。 新智元正在举行评论赠书活动,,并留下你对新智元公众号的建议,赢取《深度学习》免费赠书。 1 新智元编译 来源:code.facebook.com 编译:熊笑 弗格森 【新智元导读】Facebook 今天宣布,从使用基于短语的机器翻译模型改为使用神经网络系统来处理其社交网络后端每天的翻译请求,每天翻译超过 45 亿次。与基于短语的系统相比,BLEU 平均相对提升了 11%。通过使用 Facebook 开源的深度学习框架 Caffe2,基于 RNN 的翻译能够迅速扩展。 Facebook 今天宣布,已经开始使用神经网络系统来处理其社交网络后端每天的翻译请求,总的翻译数量超过 45 亿次。通过使用 Facebook 在今年4月份开源的深度学习框架 Caffe2,基于 RNN 的翻译能够迅速扩展。 “使用 Caffe2,我们显着提高了Facebook上机器翻译系统的效率和质量。 我们的效率提升了 2.5倍,这使得我们能够将神经机器翻译模型部署到生产中,“Caffe2团队在一篇博文中说。 “因此,Facebook上的所有机器翻译模型已经从基于短语的系统转换为所有语言的神经模型。 让我们看看研究团队是如何介绍这次意义重大的转变的—— 从基于短语的机器翻译模型改为神经网络 给 Facebook 的 20 亿用户打造无缝、高度准确的翻译体验是个很有难度的任务。我们需要考虑上下文、俚语、打字错误、缩写和寓意。为了继续提高翻译质量,我们最近从使用基于短语的机器翻译模型改为使用神经网络,以支持我们所有在后端的翻译系统,这些翻译系统每天执行超过2000 种翻译方向(translation directions)和45 亿次翻译。这些新模型提供了更准确和流畅的翻译,改善了人们消费 Facebook 上非熟悉语言的内容的体验。 Sequence-to-sequence LSTM with attention:使用上下文 我们以前的基于短语的统计技术是有用的,但它们也有局限性。基于短语的系统的一个主要缺点是它们将句子分解成单个单词或短语,因此在生成翻译时,他们每次只能考虑几个单词。这导致难以翻译具有明显不同词序的语言。为了弥补这个问题,构建我们的神经网络系统,我们开始使用一种被称为序列到序列LSTM(long short-term memory)的循环神经网络。这样一个网络可以考虑源语句的整个上下文以及之前生成的一切内容,以创建更准确和流畅的翻译。这允许长距离重新排序(long-distance reordering),例如在英语和土耳其语对译时遇到的问题。下列土耳其语到英语的翻译是基于短语的系统: 与我们的新的基于神经网络的土耳其语到英语系统的翻译相比较: 使用新系统,与基于短语的系统相比,BLEU (一种机器翻译自动评价方法,是一种用于判断所有语言机器翻译准确性的广泛使用的度量标准)平均相对提高了11%。 处理未知词 在许多情况下,源语句中的词汇在目标词汇表中没有直接的对译。当发生这种情况时,神经系统将为未知词生成占位符。在这种情况下,我们利用注意力机制在源词和目标词之间产生的soft alignment,以便将原始源词传递到目标句子。然后,我们从利用我们的训练数据构建的双语词典中查找该词的翻译,并在目标句替换未知词。这种方法比使用传统词典更加强大,特别是对于噪音的输入。例如,在英语到西班牙语的翻译中,我们可以将“tmrw”(明天)翻译成“mañana”。虽然词典的增加只小幅改善了 BLEU 得分,但Facebook 上的用户评分却提高了。 词汇削减(Vocabulary reduction) (责任编辑:本港台直播) |