在由机器翻译大会(WMT)提供的公开标准数据包上的测试表现来看,Facebook全新的翻译系统的性能要远超RNNs2。尤其是在CNN模式下的WMT 2014 英语-法语测试中,要比之前的最佳纪录提高了1.5个BLEU值。BLEU(Bilingual Evaluation Understudy)是运用最广泛的机器翻译准确度评判标准,系统认为,机器翻译结果越接近人工翻译,那么翻译质量就越高。 图丨机器翻译评判标准之一的BLEU 此外,Facebook全新的翻译系统在WMT 2014 英语-德语测试中,将此前的纪录提高了0.5个BLEU值,在WMT 英语-罗马尼亚语测试中,也将最好成绩提高了1.8个BLEU值。 神经网络在机器翻译这种实际应用中表现的衡量标准还包括,系统接收到一个句子后,会花多长时间翻译出来。Facebook全新的CNN模型拥有非常高效的计算能力,比已经很强大的RNN系统还要快9倍。Facebook的研究团队主要将精力放在了通过量化权重和蒸馏等方法来加速神经网络,这些方法其实潜力极大,在未来还将进一步大幅提高CNN模型的速度。 Facebook全新架构中的一个显著特征在于multi-hop注意力机制。这种机制类似于人类在从事翻译工作时,会将句子进行分解,而不是一次将句子看完,然后头也不回的直接进行翻译。这个神经网络也会在翻译过程中不断的回头看句子,并选择接下来要翻译的词语。 这一点与人类在翻译过程中会经常回顾句中的关键词的行为非常类似,比如,首次回顾关注的是动词,直播,那么第二次回顾时就会关注相关的助动词。
图丨One-Hop与Multi-Hop对比 该系统的另一个重点是“门控”(Gating),atv直播,它控制神经网络中的信息的具体流向,给它们指定最佳的处理单元,从而得到最好的翻译结果。打个比方,如果说神经网络会要做的是搜集所有已经完成的翻译结果,那么门控要做的就是进行精确地筛选,使它最适合当前的语境。 但是,也开始有越来越多的人担忧,经常使用机器去翻译某些常用的特定语言,会使得那些不常使用的语言被进一步边缘化。这就是为什么机器翻译其实有可能会加速濒危语言、甚至文化的消亡。 语言学家们举了一个通俗的例子,比如卫星电视服务,那些经常被电视台使用的语言会逐渐变得更流行更受欢迎,而不经常出现的语言则会渐渐被人们遗忘。 技术的进步是否会进一步加速小众语言、甚至文化的消亡? Google、Facebook等科技巨头们正在研发的机器学习技术将极大加快不同主流语种间的转换效率,这个已经没有疑问了,但它是否能成为保护小众语言的利器?
图丨语言学家Sebastian Drude 在研究巴西的印第安语言Awetí 这是一个很有远见的设想,但问题是机器翻译依赖于大量被标记的数据。这些数据集是由人工翻译的各种语言的大量书籍、文章和网站组成。机器学习算法就像罗塞达石碑(石碑上用希腊文字、古埃及文字和当时的通俗体文字刻了同样的内容)一样,数据集越大,学习效果越好。 然而对于大多数语言来说,这种庞大的数据集根本不存在。这就是为什么目前机器翻译只能够翻译最常见的几种语言。例如,Google翻译只能处理90种语言。
图丨谷歌翻译 因此语言学家面临的一个重要挑战就是需要找到一种方法,可以自动分析那些小众语言,以便让计算机更好地理解它们。 最近,德国慕尼黑大学的Ehsaneddin Asgari和Hinrich Schutze表示他们已经在这方面取得了关键性突破。他们展示的新方法揭示了几乎适用于任何语言的重要元素,这些元素可以很好地帮助机器翻译。 这个新技术是基于一个已被翻译成至少2000种不同的语言的单一文本:《圣经》,语言学家早已认识到它的重要性。 (责任编辑:本港台直播) |