本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

搜狗机器翻译团队获得 WMT 2017 中英机器翻译冠军(2)

时间:2017-08-12 20:22来源:668论坛 作者:www.wzatv.cc 点击:
从这一张「技巧清单」中,我们可以看出,搜狗的机器翻译团队在自然语言处理和深度学习方面有非常深厚的积累。因为系统中用到的许多技巧,追本溯源

从这一张「技巧清单」中,我们可以看出,搜狗的机器翻译团队在自然语言处理和深度学习方面有非常深厚的积累。因为系统中用到的许多技巧,追本溯源,都有相应的自然语言处理领域的经典方法,同时也紧跟机器翻译领域的前沿趋势。

罕见词和集外词(OOV)的处理是一个虽然在 BLEU 评分上提升不多,却在论文中被重点着墨、强调其在人工评议中的作用的模块。由于 WMT 是新闻数据集,因此最重要的罕见词类别是人名。搜狗用了两个串联的模块来处理人名。首先是标注模型,NER,又称命名实体识别,是自然语言处理的经典任务,文中用了传统机器学习领域的条件随机场(CRF)模型对源句和目标句中的词同时进行标注,挑出其中在两侧都被标为「人物」的词,用词典的办法进行解决。这适用于数据中出现过的「罕见词」。对于标注模型也不能解决的集外词,搜狗采用了将词进一步拆分,然后建立「神经人名翻译网络」,把源句中的人名变为 BPE(字节对编码)子词串,再复原为目标句中的人名的做法。

集成方法和重排序方法都使用了传统机器学习中的集思广益思想。

集成方法最早见于文本信息的分类问题,是传统机器学习中一个有「深度」的模型。模型通常由第一层的基础分类器和第二层的集成分类器组成,atv,基础分类器分别给出分类预测,而后集成分类器对基础分类器的预测结果进行集成整合,给出最后结果。在 NMT 的语境下,集成的结构没有上述这么复杂:系统取四个初始化参数不同的最优模型,综合其信息给出 n 个最佳翻译的候选列表,供下一步重排序使用。

重排序方法源于搜索排序,先模糊匹配再精确排序的办法在实践中获得了非常不错的效果,而后也扩展到了语音、自然语言等领域。文中的重排序也可以视为集成方法中的「集成层」,它用一些不同于之前的方法从另外的角度考量不同的翻译选项。本文中,重打分阶段涉及的模型包括:目标句右向左模型(target right-to-left model)、目标句到源句模型(target-to-source models)以及 N-gram 语言模型。目标句右向左模型采用了从后往前生成目标句的方法;目标句到源句模型通过减小「源到目标」和「目标到源」两个对齐矩阵的差异(disagreement)来减少注意力噪声。由于 Sogou NMT 同时进行中文到英文和英文到中文的任务,因此二者的主模型互为「目标句到源句模型」。实验证明,重排序采用的翻译候选范围对于模型效果也很重要,将翻译候选从 10 个提高到 100 个可以让中文到英文翻译系统提高 0.7 BLEU 分。

SogouNMT 系统创新性地将许多自然语言处理门类中非翻译任务的方法用于机器翻译中,通过向神经网络添加额外的机器学习模块来提升质量来点对点解决神经机器翻译中的具体问题。从某种意义上来说,发现能够和神经网络「黑箱」肩并肩工作并提高翻译质量的模块,也是给予神经网络以可解释性的一种宝贵思路。

团队介绍

搜狗机器翻译团队成立于 2016 年,是搜狗知音引擎的重要技术方向,成立之初,基于知音引擎团队在语音技术方面的积累,半年内自研完成了搜狗自有的神经网络机器翻译技术,并在 2017 年 5 月的 WMT 国际机器翻译评测中获得中英翻译的冠军。在深耕技术的同时,也在积极推进产品落地,目前机器翻译技术已经成功应用于搜狗同传和搜狗输入法中语音和文本翻译产品中。其中,搜狗同传技术于 2016 年 11 月 17 日在第三届世界互联网大会上完成首次演示,目前已经在多场重要会议场中使用,支持了数十场机器同传演示,输入法中的语音翻译和文本翻译上线以来日均 pv 已达 200 万次。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容