编者注:Facebook又爆出了大新闻:他们基于卷积神经网络(CNN)开发出的语言翻译模型比现有基于循环神经网络(RNN)的方法快出9倍!而且能以更接近人类的方式进行精准翻译。 人工智能技术在近年来的飞速发展无疑为人们展现了一幅前所未有的未来图景,人们在欢呼雀跃的同时,也开始担心被科技加持的主流文化会逐渐拉大与其他人类文化的差距。“科技霸权”不单存在于经济领域,也在逐渐向诸如语言、艺术创作等人文领域渗透。而一旦脱离主流技术发展体系,这些小众人类文化所面临的结局很可能是逐渐消亡。 以 AI 为代表的新兴技术会将重建人类文明的“巴别塔”,还是加速其崩塌? 图丨《圣经》中的巴别塔 人类目前使用大约6900种不同的语言。但使用汉语、英语、北印度语、西班牙语和俄语这5种语言的人占了全球人口的一半以上。事实上,95%的人只使用100多种语言进行交流。 另外一个不为人知的事实是,根据语言学家估计,世界上约有三分之一的语言仅由不到1000人使用,而且在未来一个世纪这些语言面临失传的危险。这些小众语言所体现的独特的文化遗产,像传统故事、短语、笑话、传统草药,甚至独特的情感也会随着语言的失传而消失。
图丨世界语言树 在这个处处连接的互联网世界里,人与人之间的沟通和交流变得无比的方便快捷。但现在的问题是,语言的差异仍然像是一道深不可测的鸿沟摆在拥有不同文化背景的人们面前。 作为全球最大的社交巨头,Facebook自诞生起就在血脉深处蕴藏着开放和连接的基因,他们的使命就是打破藩篱、重构起互通互联的“巴别塔”,使每个人都可以以最准确、最快速的方式接触到全球范围内的信息。 而要实现这一目标,第一步就是解决不同语言之间的转换问题。人工翻译已经远远不可能满足当今世界所产生的海量信息流,那么,是否能有一种快速而准确的技术决绝方案,能替代人类去完成不同语言间的转换? 就在今天,Facebook人工智能研究中心(FAIR)发布了使用全新的卷积神经网络(CNN)进行语言翻译的研究结果。据悉,这种新方法能够以现有的循环神经网络系统9倍的速度进行翻译,而且翻译的准确性还会得到大幅的提高。 卷积神经网络(CNN)最早是由深度学习领域的权威人物Yann LeCun在几十年前所发明的,在以图像处理为代表的的机器学习应用中表现的非常成功。但在语言翻译方面,由于对准确性的追求,往往会将循环神经网络(RNN)作为首选的技术。
图丨Facebook人工智能研究院院长、纽约大学终身教授Yann LeCun 但尽管如此,RNN在设计上所固有的局限性还是制约了它在语言翻译和文本处理上的进一步应用。 举例来讲,计算机在进行文本翻译的时候,通常是根据一种语言的句子来判断在另一种语言里同义单词的排列顺序。但循环神经网络只能以从左到右(或从右到左)的顺序逐字进行翻译,这就和深度学习中多GPU并行的计算模式十分不契合,必须要等到上一个词翻译完之后,下一个词才可以继续,实际上也就相当于造成了神经网络计算能力的浪费。 与之对比,CNN就表现出很大的优势,它可以充分利用多GPU并行计算的能力,同时处理多个语言片段,显然效率会得到大大提升。除此以外,CNN的另一个优势就是其所具备的信息分层处理能力,这对于海量信息中的复杂关系归纳汇总十分有利。
图丨CNN与RNN区别简明图示 在以往的研究中,CNN在翻译上的应用并没有引起Facebook的重视。不过,FAIR团队意识到了这一技术的潜力,他们通过搭建翻译模型验证了CNN极佳的翻译表现,如果在未来这一能力可以得到释放的话,那么精准、高效翻译全球6900余种语言将不再是梦想,人类文化的“巴别塔”将在技术的基石之上重建。 Facebook的全新翻译系统到底表现如何? (责任编辑:本港台直播) |