为何适用:辨别理解和单纯的模拟。Leidos 的研究者 Leora Morgenstern 曾和 Davis 一起研究过 Winograd 模式挑战,他说,「苹果的数字助理」Siri 也不能理解代词,也不能消除歧义。也就是说「你不能真正的和一个系统展开一段对话,因为你总是在提到对话中之前出现过的东西。」 j2直播,我们该如何评测人工智能?" src="http://www.wzatv.cc/atv/uploads/allimg/170303/01203C093_0.jpeg" /> 测试 02:人类的标准化测试 人工智能将接受人类学生在小学、中学阶段面临的考试,不给任何宽限。这一方法是将语义理解和解决各类问题的任务联系在一起的绝妙方式。这很像是图灵测试,但前者更加简单直接。只需让人工智能接受严格的标准化测试(如纽约市四年级科学考试的多选题),为机器配备足够的输入能力(如自然语言理解和机器视觉模块)然后开始考试吧。 优点:多样化且务实。和 Winograd 模式不同,标准测试相对简单易行。而且因为没有任何一种人类考试是为机器准备的,所以考题非常丰富,而有关常识的问题需要进行阅读理解,有可能不存在独一无二的答案。 缺点:不像谷歌背书的 Winograd 模式,这种测试面向人类,而且通过标准化考试并不一定意味着机器具有了「真正的」智能。 难度:中等。此前,由 Allen 人工智能研究所设计的 Aristo 系统在接受未遇到过的四年级科学考试时可以获得平均 75%的分数。但那些试卷上都是没有图片的多项选择题。「目前还没有哪个系统能通过完整的四年级科学考试,」Allen 研究所的科学家在 AI Magazine 中写道。 为何适用:解决现实世界的问题。「我们可以看到,目前还没有哪个系统能够在 8 年级的科学考试中取得及格的成绩,但同时,我们又能看到 IBM Watson 帮助医学院的研究人员攻克癌症的新闻,」Allen 人工智能研究所的首席执行官 Oren Etzioni 说道。「IBM 可能有了惊人的技术突破,也可能他们只是在某个方面稍稍领先。」 测试 03:物理图灵测试 大多数机器智能的测试方式集中在认知方面。而这个测试更像是实践课:人工智能必须以有意义的方式在现实世界完成任务。这一测试分为两个方向。在构建方向,一个具有实体的人工智能——机器人必须学会阅读使用说明,将一堆部件组装成实体(就像从宜家买回家具自己拼装一样);而探索方向则是一个开放的问题,需要人工智能发挥自己的创造力,使用手头的积木来完成指定的任务(例如「建一堵墙」、「盖一个房子」、「为房子加盖一个车库」)。这两个方向都要求被测试的机器理解任务内容,找到解决方法。这种测试可以面向单独的机器人,也可以面向机器人群组,甚至人类和机器人共存的小组。 优点:这一测试模拟现实世界中智能生物需要解决的问题——特别是在感知和行动方面,这是以往人工智能测试方法所或缺的。另外,这种测试很难作弊:「我不知道它存在什么技巧,除非有些人能够找到办法让人工智能在网上搜索出已经存在的类似建筑物。」Nuance 的 Charles Ortiz 说道。 缺点:繁琐、乏味且难以自动进行,除非机器可以在虚拟现实场景中进行测试。而且即使这样可行,「机器人学家也会说(虚拟现实场景)只是近似的环境,」Ortiz 说道。「在现实世界里,如果你拿起一个组件,它可能会滑落,这或许是一个易于解决的问题。但在 VR 世界中很多条件都可能存在细微的差别。」 难度:科幻级。一个具有实体的人工智能可以自然地操纵物体,并能连贯地解释自己的行为——这不就是《星球大战》里的机器人吗。「让机器人能像儿童一样掌握这种能力是一个巨大的挑战。」Ortiz 说道。 为何适用:想象一下通往人工智能的道路,有四个问题需要解决——感知、行动、认知和语言,而现在的研究计划往往只专注其一。 测试 04:I-Athlon 在一次部分或完全自动测试中,让人工智能总结音频文件中的内容,叙述视频中发生的情节,即时翻译自然语言同时执行其他任务。这是为了构建一个客观的智能分数。其中,没有人监督的自动化测试是这一方法的重点。将人类从评估机器智能的过程中剔除是一个有点讽刺的事,但 IBM 的人工智能研究者 Murray Campbell(前「深蓝」开发成员)表示:对于人工智能的测试必须保证有效且可复现。建立一个算法来生成 AI 的智能分数也可以让研究者们不用再依赖于「肯定存在认知偏差」的人类智能,它可以像标尺一样具有统一的刻度。 (责任编辑:本港台直播) |