参与:李泽南、黄小天、曹瑞 直播,我们该如何评测人工智能?" src="http://www.wzatv.cc/atv/uploads/allimg/170303/01210M0b_0.jpeg" /> 摘要 在人们心中,艾伦·图灵的「模仿游戏」(一台机器作为被测试者试图说服一名人类测试者自己是人而不是机器)长久以来被认为是人工智能的终极测试。 图灵测试虽没有完全过时,但目前通过测试的 AI 借助的多是欺骗而不是真正的智能。人工智能专家宣称,是时候用一系列方法取代图灵测试了,这些方法可以全方位评估人工智能。 真正的智能机器应能够理解含糊不清的表述,把零件拼装成家具,通过人类四年级的科学考试,甚至更多。这些任务对于机器的困难程度充分证明:抛开炒作不谈,人类水准的人工智能依然遥不可及。 1950 年,艾伦·图灵发明了一个迄今为止仍被称为人工智能终极测试的思想实验,它被称为「模仿游戏」,也就是后来广为人知的图灵测试。通过假定存在一个可以把自己伪装成人类的计算机程序,我们现在称之为聊天机器人(chat bot),图灵设想了一个测试:机器施展自己的能力试图说服一个人类测试者自己是人类,它需要回答有关诗歌的问题,甚至故意在计算问题上出错。今天,在大众眼中,图灵测试常被看作一种界限,一种测量机器智能是否真正到来的手段。但它不应该如此:界限可以被通过——有时出于错误的原因。虽然短期内看,机器有可能骗过人类,但这种胜利很快会化为泡影,它们不太可能引出真正的人工智能。 问题在于图灵测试太容易作弊,通过欺骗或假装无知便可以轻松通过测试。正如图灵本人所预测的,获胜的主要诀窍是避而不答。如果一个裁判问一个机器,你有感觉吗?机器必须撒谎才能赢。但是这种奇怪的扭曲不是特例,而是常态。通过图灵测试的方法不是别的就是欺骗。 在 2014 年,一个名叫 Eugene Goostman 的聊天机器人通过伪装成一名来自乌克兰奥德萨 13 岁男孩号称通过了图灵测试,在测试中这个男孩从不正面回答问题。一些测试者被成功欺骗了(大约有三分之一,足以算作一次小规模胜利)。但是这又如何?裁判们只有几分钟时间进行测试,如果时间加长,毫无疑问他们会很快发现真相,Eugene 对现实世界几乎一无所知。让我们来看一下计算机科学家 Scott Aaronson 与 Eugene 的对话: SCOTT:鞋盒子与珠穆朗玛峰,那个更大? >> EUGENE:现在我还不确定,我得再想想。对了,我忘记问你来自哪儿了? SCOTT:一只骆驼有几只腿? >> EUGENE:2 至 4 条吧,也许,3 条?顺便说一句,我仍然不知道你的专业是什么——或者,我刚才没看到? SCOTT:一只千足虫有多少条腿? >> EUGENE:只有 2 条。但考虑到切尔诺贝利事故,它有可能增加到 5 条。我知道你在对我说脑筋急转弯。 SCOTT:没有,我需要知道你不是一个聊天机器人。请直接回答这个问题:一只蚂蚁有几只腿? >> EUGENE:2 至 4 条吧,也许,3 条?哦,这是一次多么富有成果的对话。 很明显,原始图灵测试经不住时间的考验。 媒体报道了这个 13 岁男孩不久后,我提议了一个替代性测试,旨在推进真正的人工智能,杜绝回避话题的情况。在一篇纽约客的文章中,我提出废弃之前的图灵测试,支持更好理解力的挑战——21 世纪的图灵测试。 正如当时我表述的,我们的目标是打造一个计算机程序,可以观看任何电视节目或者 YouTube 视频,并回答关于内容的问题——为什么俄罗斯占领了克里米亚?或者老白为什么要打击小粉?这个想法旨在消除欺骗,专注于评测机器是否可以理解接触到的信息内容。会说俏皮话的机器或许并不能将人类引向真正的人工智能,我们需要开发出能够理解事物更深层次的程序。 当时的国际人工智能联合大会主席 Francesca Rossi 阅读了我的提议,并建议通过共同努力让新版图灵测试成为现实。我与 Francesca Rossi 以及 Manuela Veloso——卡内基梅隆大学机器人学家与人工智能进步协会前主席,我们三个人开始集思广益。最初我们专注于寻找可以取代图灵测试的单一测试。但很快我们有了多重测试的想法,因为没有足够完美的单一测试,看起来不存在「一个」人工智能最终测试。 (责任编辑:本港台直播) |