4.语种相关知识很少,只要记忆库中存在外形与输入相似的句子,即可匹配.EBMT对于相同或相似的文本,有非常显著的翻译效果,随着例句库规模的增加,其作用也愈显著。 虽然基于实例的机器翻译系统翻译效果显著提高,可是,在有些方面还是有些不尽人意的。一方面,由于语料库规模的限制,将语料库中的源语言文本和目标语言文本中意思相同的一群通过算法对应起来还是存在一定的难度的。另外,实例匹配相似度也是亟待解决的问题。 第三类:基于统计的机器翻译 基于统计的机器翻译方法是20世纪90年代兴起的一种翻译方法,也是当前机器翻译的主要方法。 “统计机器翻译方法”(SMT),即通过对大量的平行语料进行统计分析,找出常见的词汇组合规则,尽量避免奇怪的短语组合。SMT翻译短语效果好,但是对于翻译句子的翻译结果就差强人意了,直到近几年基于神经网络的翻译模型( NMT)崛起。 神经网络机器翻译(NMT)模拟人脑神经的层级结构,具有多层芯片网络,从基础层开始,atv,每一层都对从上一层接收来的信息进行抽象,自动识别出语言的规则、模式。人不了解那些规则也没关系,反正交给机器了,只要结果正确即可。这就是端到端的翻译。 那到底什么是神经网络?神经网络是通过对人脑的基本单元——神经元的建模和联接,探索模拟人脑神经系统功能的模型,并研制一种具有学习、联想、记忆和模式识别等智能信息处理功能的人工系统。神经网络的一个重要特性是它能够从环境中学习。 “神经网络技术在数据结构以及学习结构上模拟了人脑,并且‘学什么’这个问题也由机器自动掌握。再者,统计机器翻译里一百万行的代码,在神经网络机器翻译里只需要280行就可以解决了。”——Marco Trombetti 来源:Pixabay 相较于“统计机器翻译方法”(SMT)聚焦于局部信息(短语),神经网络机器翻译(NMT)更擅长利用全局信息——在对整个句子的信息解码、编码后才能生成结果。所以无论是语音识别还是翻译,都会发现句子长一点,机器识别和翻译的效果就会更好一点。 比如,语序问题是“翻译”头疼的问题,中文会把所有的定语都放在中心词前面,英文则会倒装,以往机器常混淆这个顺序。 NMT通过基于深度学习的神经网络,向人类较好地学习到语序模式,长句翻译比以往流畅多了。 谷歌最近宣布启动的神经机器翻译系统(GNMT)就是利用神经网络将语音直接转译成文本,它是通过学习去找到源语言和书面文本中的波形之间的对应关系模式。并且在TPU上运行,能降低55%-85%的翻译错误,并且十分接近人类译员的翻译水平,这在业内引起很大关注。 语音机器翻译的常规工作模式是先将语音转换成文本,然后将其翻译成另一种语言,但语音识别中的任何错误都会导致转录过程中的错误以及翻译错误。 而谷歌的深度学习研究机构Google Brain的研究人员利用神经网络取代了中间环节。通过这种跳过转录的方法,使得翻译更准确、更快捷。 第四类:混合式机器翻译模型 在机器翻译行业中各种翻译模型磅礴发展,但也不约而同地存在着各式各样的缺陷。基于此,有些研究者就开始转向混合式机器翻译模型的研究。例如在一个基于Factored的维汉机器翻译系统中,将Factored系统和基于层次短语的Joshua翻译系统以及Moses中基于句法的翻译模型进行系统融合,构建一个混淆网络,就可以提高翻译的效果。 异军突起亦道阻且长 机器翻译发展这么迅速,翻译效果也在不断提高,那么,以后还需要学习外语吗?机器翻译是不是可以代替人工翻译? (责任编辑:本港台直播) |