在《》中,我提到“chatbot”应当译作“聊天程序”而非“聊天机器人”。这个英文单词是由“chat”(“聊天”)和“robot”(“机器人”)的后半部分组成,所以译作“聊天机器人”不是毫无来历。总的来说,“bot”是指和机器人有一些相似的“拟人”程序,但在英文中没人会把“chatbot”误解为一种“robot”,而在中文中,“聊天机器人”完全可能被误解成“机器人”的一种。随着把“bot”译作“机器人”成为时尚,后者将不再特指与通用计算机相区别的专用计算装置。这就是为什么“实体机器人”、“物理机器人”等说法开始出现,以强调它们和纯软件的差别。实际上更好的选择是保留“机器人”一词的“实体”、“专用硬件”的本意,而用其它词汇称呼拟人化的程序,因为这些程序和其它程序的区别并不明晰,而且在所有重要的意思上(商业宣传除外)都没有理由被称为“机器人”。 上述例子说明,在翻译过程中的候选对象常常是需要从多个方面比较和斟酌的,而绝不仅仅是算出现概率这么直截了当。尽管“约定俗成”的确是翻译的一个重要原则,但绝不是唯一的原则。实际上“具体情况具体分析”应当被看作一个更重要的原则。这就是说要试图把握要翻译的内容“在此时此地”是什么意思,而不仅仅是它“在一般情况下”是什么意思。优秀的译文应该具有灵活性和创造性,而这不是“统计路线”所能提供的。 第三条路线 我前面提到的问题远非鲜为人知,而是更接近于有目共睹。但是,除非有更好的技术出现,对这些问题人们除了容忍或抱怨也没什么好办法。 现在大部分研究者仍是希望在“统计路线”的内部解决自然语言处理问题。出于前面解释的理由,我对此不抱希望。统计技术的确能给我们相对简单的自然语言处理工具,但这些工具的局限性也是命中注定的。 另一个显而易见的可能性是在自然语言处理中把“基于统计”的技术和“基于规则”的技术相结合。这条路线会取得一定的进展,但仍不可能彻底解决这两个技术的基本设定中的“先天缺陷”,更不要说还要解决使二者相互协调的难题。 我自己的研究目标是建立一个通用智能系统(见《》等专栏文章),这自然就涉及到自然语言的处理。因为在我的系统中自然语言的作用不是核心性的,而是边缘性的(尽管也很重要),这方面的具体工作近年来才刚刚开始。我的基本想法和初步结果在参考文献[3]中有介绍。在这里只把和前述两条路线的主要不同点列出来: 不把“自然语言处理”作为一个相对独立的功能模块,而是作为系统的推理和学习机制对言语经验的加工。这就是说对语言材料的处理和对其它材料(感知、运动、概念等等)的处理是基本一样的。 不循“语法-语义-语用”的次序进行语言理解,而是反过来以“目标制导”的方式分析意义(见《》),并用语法知识协助复杂意义的分析。 不假定一个独立、完整、确定的语法系统,而是允许语法知识、语义知识、语用知识混合存在于各个不同的抽象水平上的概念之中,atv,并主要靠系统自身从经验中习得这些知识。 所有知识,包括语言知识,都只是一定程度上为“真”(见《》),但知识的习得和使用更接近于推理,而不是统计。 这条路线在语言学中更接近于“认知语言学”的传统。尽管目前我们的结果还没到能实际应用的程度,但有理由认为这条路线有可能在自然语言处理上(包括翻译)走得更远,因为它更接近人学习和使用语言的实际过程。具体到翻译来说,这就要求系统通过学习掌握词语的一般译法,但在翻译过程中考虑到前述那些被统计翻译所忽略的因素,通过推理来确定每句话应该怎么译。在这个过程中,“理解”体现为把翻译内容与系统的概念系统相联系,尤其是找到其“前因后果”,即作者(说者)为什么要这么写(说),并以此希望在读者(听者)心中产生什么效果。以这种“理解”为基础,系统试图用另一种语言实现尽可能类似的效果。这种对翻译的理解和“规则路线”与“统计路线”均有根本不同。 但纵使是这条路线取得了完全的成功,也不会使得所有的翻译失业。像我在《》中所解释的那样,即便一个计算机系统具有了通用智能,它的经验也不会和人的完全一样,因此它的概念和信念不会有和人一样的内容。这种差异必定会体现在翻译作品之中。对某些材料(如文学作品),我们大概还是喜欢人的翻译,尽管机器翻译可能也不错。这就像外国人学中文很难完全达到中国人的水平(中国人学外文也同样),因为到后来差异主要是来自于经历和文化,而不是语言知识和技巧。这类差异可不是靠智力可以弥补的。 (责任编辑:本港台直播) |