编者按:桑斯坦在《网络共和国》当中提出了算法影响我们的认知世界、并在《信息乌托邦》当中第一次明确提出了算法使人形成“信息茧房”的危害。这是算法对于人脑的影响,而算法应用于人工智能中,也让偏见在人工智能当中存在——由于语言本身具有偏见,人工智能通过算法习得了它们,甚至人工智能有可能加强这一偏见。但这是否是一个坏事情,还值得我们探讨。 在过去的数年中,诸如谷歌翻译这样的程序在语言翻译方面进步神速,这一进步多亏了新的机器学习技术和大量可获得的在线文本数据,它们使得算法可以被检验。 人工智能(AI)工具彻底变革了计算机翻译日常用语的能力,但也表现出了显著的性别和种族偏见。根据《科学》杂志中最新的研究表明,随着机器越容易习得类人的语言能力,它们同样就越容易习得语言应用范式中根深蒂固的偏见。 随着越来越多影响我们日常生活的问题让渡给机器人作出决定,现存的社会不平等和偏见以新的、不可预知的方式被强化,这一发现使这个噩梦萦绕人们心头。
随着机器越容易习得类人的语言能力,它们同样就越容易习得语言应用范式中根深蒂固的偏见。图片来自: KTS Design/Getty Images/Science Photo Library RF 巴斯大学的计算机科学家和论文的联合作者Joanna Bryson说:“许多人认为这表明了AI具有偏见。其实并不然,这表明了我们是有偏见的,而AI正在学习这种偏见。” 但Bryson同样警告说,AI有着加强现存偏见的可能,因为不同于人类,算法无法自觉抵抗习得的偏见。她说:“危险在于AI系统不为道德所驾驭,一旦你拥有了这样的一个系统,这就糟糕了。” 文字嵌入:获取单词背后的文化和社会背景含义 论文聚焦于机器学习工具,即“文字嵌入”,这种机器学习工具已经改变了计算机翻译演讲和文本的方式。有人声称下一步自然就是使机器发展出类人能力,比如具有常识判断和逻辑。 普林斯顿大学的计算机科学家和论文的资深作者Arvind Narayanan说:“我们选择研究文字嵌入的主要原因,是由于在最近几年里,帮助机器搞清语言方面的努力已经取得了令人惊叹的成功。” 这一已经应用于网页检索和机器翻译的方法通过建立起一种语言的数学化表述来发挥作用。在这种数学化的表述下,文字和基于其一同频繁出现的意义一道,被抽象为一系列数字(即矢量)。尽管这令人惊奇,但算法似乎正在以一种字典也不能定义的方式,获取一个单词背后丰富的文化和社会背景含义。 比如,在数学化的“语言空间”中,“花”的单词总是与具有褒义的词汇相联系,而“昆虫”的单词则相反,反映出人们对昆虫和花不同价值的共同观点。最新的论文展示出,一些在人类心理实验中更为棘手的隐性偏见同样可以被算法轻而易举地习得。“女性”和“女人”更易于同艺术人文类岗位和家庭联系起来,而“男性”和“男人”则是与数理和工程类岗位。同时,人工智能系统更有可能将欧裔美国人的名字与褒义词联系起来,比如“天赋”或“快乐”,atv,而非裔美国人的名字一般则更易与贬义词相联系。 这一发现表明,人们(至少在英美)在隐性的关联测试中将褒义词与白面孔联系在一起,算法习得了这一偏见。 这些偏见会对人类行为产生深远影响。曾有研究表明,对于一份完全相同的简历,有着欧裔美国人名字的候选人会比有着非裔美国人名字的候选人更有可能获得面试邀请,这一可能性超过了50%。最新的结果显示,atv,除非明确进行了程序化处理,算法将会充满同样的社会偏见。 “如果你不相信人名和种族主义之间存在着联系的话,这就是证据。”Bryson说。 该研究中,机器学习工具的检验基于一个名为“网络爬虫”的资料库——它包含了在线发表的资料,包括8400亿个单词。使用谷歌新闻的数据做检验,也得到了相似的结果。 算法为处理偏见提供机会 牛津大学的数据伦理和算法的研究者Sandra Wachter说:“世界是有偏见的,历史数据是有偏见的,因此我们得到了有偏见的结果也就不足为奇了。”她补充道,“与其说算法代表着一种威胁,它们更能为处理偏见提供机会,以及在合适的时机消除这些偏见。” “至少我们可能在算法出现偏见的时候获悉这种偏见,”她说,“而人类呢,却可以在不雇佣某人的原因上撒谎。相比而言,我们不用指望算法欺骗我们。” 但是Wachter声称,未来的挑战在于,如何在消除算法中不合理的偏见之余,依旧保留它强有力的翻译能力,毕竟算法是设计来理解语言的。 (责任编辑:本港台直播) |