继阿尔法狗战胜韩国职业棋手李世石没多久,人工智能再下一城。据澎湃新闻9月29日报道,27日,谷歌推出了新的翻译系统,声称该套翻译系统基于对人类神经思考的模仿,能够与真人翻译竞相匹敌。 在谷歌发表的题为《规模生产中的神经网络机器翻译》(A Neural Network for Machine Translation, at Production Scale)的文章中,宣布将机器学习技术纳入网页和手机APP翻译中,从前汉译英的尴尬局面将大为扭转。 翻译系统面世后,根据用户们的测试,发现汉译英的准确率高得惊人。 众所周知,将汉语恰切地译介为英语是一件不易之事。输入中文,翻译系统给出的答案往往是“惨不忍睹”,简单的机械翻译对于那些谷歌翻译的依赖者来说已远远不够。谷歌公司称,相较之前的算法,谷歌神经机器翻译能减少80%的错误,与通过标准测试的真人翻译所差无几。 在之前的一项西班牙语译为英语的测试中,设定满分为6分,谷歌旧的翻译系统得到3.6分,人类普遍得分为5.1分,而谷歌的新系统得到了5分的好成绩。 三种译介方式评估。满分为6分,橘色为真人翻译、绿色为谷歌神经网络翻译、蓝色为短语式翻译。从前的译介模式是短语式的,翻译系统将一句话拆分成单词或者词组进行翻译,往往得到一些狗屁不通的结果。而新的翻译系统称之为谷歌神经机器翻译(GNMT),这项新的技术运用更少的机器设计选择,它将一句话视为整体进行解码,虽然仍是将一句话分割成若干独立单元,但每个单元都放在句子的前后进行考量。这就像一个初中生进入高中大门,为完成作业,要尝试在一本巨大的词典中查找单词和短语。神经机器翻译与以往的翻译模式用的是同样一本大词典,但旧的翻译模式只是逐个查词,而神经机器翻译却训练出两种神经网络,可以生产出另一种语言的完整的文本。这对于汉语翻译是极为重要的,因为汉语中由于搭配不同导致一个词往往有不同的意思。 谷歌神经网络翻译为何能够在准确性上有质的飞跃? 据悉,谷歌神经翻译克服了之前神经机器翻译在准确性和速度上的缺陷,带有8个编码层和8个解码层的长短时记忆(LSTM)网络用来增强注意以及记录瞬间感觉残留。注意力机制则连接下层解码层和上层编码层,以此来提高并行度从而降低耗时,推理计算中的低精度的算法则提升了最终的翻译速度。 第一步,网络将中文单词编码为一系列向量,每个向量代表整句话所有单词的含义。一旦整个句子被神经网络阅览,解码即开始,生成相应的英语句子。而解码则是一个将已编码的中文向量与相关的英语单词生成的加权分布的过程。连接编码解码的曲线代表解码过程中所考量到的编码词汇。 而为提高对生僻词的处理,谷歌将词语分成有限的子词单元,从而方便输入与输出。而束搜索技术则使搜索长度规格化以及具有覆盖性,这使得翻译输出的句型可大量覆盖译介语种的所有单词。这一切都可归为人工智能,人工智能算法不依赖于人类逻辑,比起人们从前使用的手工编写的算法来说,人工智能算法能找到更好的方式完成任务。人工智能网络自身会学习怎样翻译,它只专注于结果如何,而不受人类思维优先的干扰。开发此项目的谷歌工程师麦克·舒斯特说,“你不必选择,系统会全面进行翻译。” 中译英只是谷歌翻译所支持的多种语言中的一种。谷歌表示,今后翻译将更多依赖于人工智能。在之后的几个月时间里,谷歌还会设计出适用于更多语言的谷歌神经机器翻译。当然,此种神经机器翻译还不能称得上完美,固然基于神经的人工智能表现不错,但仍有很多细微之处机器算法不能够真正领悟。比起人类翻译,谷歌神经网络翻译仍会犯许多人类翻译不会出现的错误,如掉词、误译专有名词、罕见术语,以及忽略上下文语境而孤立地翻译某句话等等。不过,起码这种新的翻译模式只是让意思流失在翻译结果上,而非在翻译过程中就面目全非。 举例展示GNMT进行汉英翻译的过程 首先,网络将汉字(输入)编码成一串向量,每个向量代表了当前读到它那里的意思(即 e3代表“知识就是”,j2直播,e5代表“知识就是力量”)。整句话读完之后开始解码,每次生成一个作为输出的英语单词(解码器)。 (责任编辑:本港台直播) |