第一个在于它们可能是机器翻译产生的语料。因为机器翻译技术已经比较普及,尤其是医疗方面有大量的机器翻译产生的语料。由于国外的医疗研究比国内先进,很多人会借助机器翻译技术来看文档。而这种语料若进入语料库,翻译系统学出来的还是机器翻译的句子。 第二种噪声是来自于恶搞。比如我们最早的时候看到「how old are you」,翻译成「怎么老是你」。因为语料里面「how old are you」,全是「怎么老是你」,出现频次非常高。 第三种是翻译得不地道的。互联网上翻译内容的人不一定是翻译水平很高的人,他们在翻译文章时会自己加入一些内容。这种是比较难识别的,因为很零散。 针对每一类噪声,我们都会建立一个不同的质量检测模型,结合了翻译自身的技术以及互联网技术。机器翻译的语料是不能用机器翻译的概率特征过滤的,比如「how old are you」每个对齐,怎么(how)老(old)是(are)你(you),翻译得特别完美肯定无法过滤。所以我们一般从网站本身的权威性着手,对于权威性低的,相应高置信度就要打低。此外,我们还通过识别翻译特征判断其是否为机器翻译语料,直播,比如:流畅性不好、语序不对等等。 机器之心:不同语言的语料规模的差别较大,英语可能会多一些,小语种会少一些。如何将 NMT 的研究成果,应用于不同语言语料的构建中? 答:这其实是语料稀疏问题。语料稀疏是 NLP 一直在面对的问题,以前有一些解决方案,比如说: Transfer Learning(转移性学习)、机器翻译的 Pivot-Language(枢轴语言)技术、标签传播等技术。从一种语言翻译到另外一种语言,即使同一种语言在不同领域的语料也是不一样的,从这个领域迁移到另外一个领域,都需要解决语料的构建问题。 NMT 是可以应用于此的,因为 NMT 本质是把一种语言翻译成另外一种语言。它的好处在于,不同语言之间可以互相学习他们的语义表示,比如中文的「看」,和英文的「See」(看见)或者「Read」(看书)。以相似度来计算,相似度高的就认为它们拥有同样的语义,可以用在不同语言的标注上。 用来解决语料稀疏问题的多任务学习框架,来自《Multi-Task Learning for Multiple Language Translation》 这样说可能有些抽象,举例来说我们去年在 NLP 领域国际会议 ACL 上发表了一篇文章,讲述用 NMT 解决语料稀疏的问题。中文和英文之间的句对很多,但中文和其他语言如日文、泰文、西班牙文的句对就很少。怎么办?我们同时学习。中文翻译成英文、日文、韩文、泰语的句对都一起学习,这样就能充分利用中文在源语言端的表示。此外,还学习关联知识,韩语-日语之间结构类似,从日语中学习到的结构性信息适用于韩语翻译。 后来 Bengio 团队还在我们论文的基础上做了类似的工作,他们在我们的研究基础上扩展成多(语言)对多(语言),其实思想是类似的。后来他们还把这个工作开源了。 机器翻译能否取代人工翻译? 机器之心:很多人可能就会问,人工翻译会不会被机器取代?您怎么看这个想法? 答:从很长一段时间来看,完全取代还是不太可能的。 现在基于互联网大数据的机器翻译的优势在于,突破了原来编辑规则的局限。与人工翻译相比的好处是能迅速翻译很多语言。同时它解决了一些问题,比如几个场景:出门旅游的沟通、写 E-mail 借鉴机器翻译用词、小孩利用机器翻译扩充词汇。这种形式解决了用户的一些问题,也达到了实用的程度。 但是翻译最终的目标是「信、达、雅」,「信」至少是忠于原文,「达」就是译文通畅,符合目标语言用语习惯,「雅」是在这个基础上表达生动、形象。尤其在「雅」上,目前机器翻译远远不够。 (责任编辑:本港台直播) |