现在的所谓神经网络机器翻译,包括之前的机器翻译都不是基于理解的,也就是说目前的机器翻译没有一个机制是对源语言(即待翻译的语言)有基于语意的表示和理解。 于是,你可以发现在满足这两个条件的情况下,机器翻译比较容易成功:第一是说翻译的两个主体间有意义上比较清晰的对应关系,比如 “北京” 能明确对应 “Beijing”,另一个是说相似结构的句子有出现比较多的样例,比如 “小明喜欢狗” 这类 xx 喜爱xx(xx love/like xx)的结构,无论在中文还是英文里都非常常见。 AI 专家、投资人 丁晓诚: 机器翻译适用于实用文体翻译。机器翻译是机器去学习人类的翻译内容、检索规律并进行效仿,和普通内容的翻译者做的事情是一模一样的,机器翻译将使这部分工作失去必要性。 翻译专家 高兴:简单交流可以,深入灵魂不行。 机器翻译可能适合于旅游、贸易、购物、国际交往中简单沟通等场景。但学术和文学等深刻交流绝对不能指望机器翻译。在某些领域,也许未来会 “消灭翻译”,但在社科人文领域,不太可能。 / 03 / 有人认为机器翻译可能会导致翻译腔泛滥、语言匮乏;也有人认为,机器翻译无法完成诗歌、小说等文学性强的内容;除此之外,机器翻译现在还有哪些局限?
▲ 热爱工作,工作使其快乐的 Google 翻译也难免犯迷糊。 计算机科学家 孙茂松:机器翻译的强大与局限都来自于模型。 对于文学性强的语言,机器翻译不一定处理得不好。其实机器翻译的原理就是从大量的人工翻译好的语料中去学习训练。如果有大量文学作品给机器,那机器对文学作品的翻译能力也就越强。文学作品中写作风格比较灵活,但只要训练语料里面有充分多的类似语料,机器翻译便可以捕捉到写作模型。 在我看来,机器翻译的强大之处和局限都是因为它所使用的模型:机器并不像人一样真正理解某句话,而是归功于大量的训练。也就是说,机器的翻译知识其实来源于人类,它可以从数以亿计的人类翻译好的文本中学习。这种模型本身并不创造知识,只是把人类的翻译知识放进去,机器想办法学会。 于是这带来了问题。如果你提供的句子,机器没有看到过也没有学习过,可能就处理不好。比如网上网友的测试,让机器翻译一句 “我不想上课”,假设训练语料里面没有类似 “我下课了” 的表述,机器可能会犯糊涂,这就不一定能翻好。总而言之,翻译模型的原理是基于统计的,在训练语料中如果没有出现过,机器就有可能会去猜,于是会出错。 计算机专家 刘洋:最大的难点——如何让机器真正拥有智能 机器翻译的难点其实是整个人工智能的难点——如何让机器真正有智能,像人一样有智能行为。语言翻译是智能行为的一种,还有很多其他类似的行为。现在的计算机模型、方法、数据支持还不足以让计算机真正达到人的智能。 机器翻译现在完全是一个数据驱动的方法,取决于我给计算机提供哪些数据,那么很大的问题就是现在数据比较稀缺。最多的翻译数据来自于政府文档,比如联合国有多种官方语言,直播,每出一个文件都会有多语种版本。而有的领域基本没有数据,比如娱乐、体育,因为我们不可能把网上每一篇体育新闻都翻译成另一种语言。 至于文学类型的翻译,倒不是说机器一定翻不好,而是大家暂时觉得没有商用价值,所有受关注不高。商用价值比较高的,像专利、旅游、法律文书、专业手册这类。机器翻译的应用比较多。 自然语言处理专家 吕正东:更多的数据或许可以弥补缺憾。 (责任编辑:本港台直播) |