重新利用一个玩游戏的程序去运行数据中心的能源预算,实际上就像重头开始教程序去玩一个新的游戏一样。那是因为 DeepMind 的原始神经网络只能一次玩一个游戏。例如,为了玩“Breakout”,必须要忘掉玩“Space Invaders”时学会的所有知识。这种遗忘是人工神经网络本身的性质,也是人工神经网络与真正的人类大脑相区别的性质。它们通过在全系统调整组成它们的虚拟神经元之间的连接的强度来学习。一旦改变了要学习的任务,旧的网络连接就会逐渐被重写。但是现在,,让网络就像真正的人类大脑一样,能一次掌握许多个游戏。这是迁移学习——在一个上下文中使用从另一个上下文学会的行为模式的能力——这是 AI 研究中的一个热门话题。 就像好奇心和延迟奖励一样,将学习从一个任务转移到另一个任务是人类毫不费力就可以做到的,但机器却很难做到。再一次,游戏在这方面的研究起了重要的作用。例如,纽约大学的 Julian Togelius 组织了一个叫做“通用视频游戏AI大赛”的挑战赛,参赛者需要创建一个单一的程序,该程序要能玩10个不同的视频游戏,而且都是它之前没有遇到过的游戏。这需要软件能够掌握多种技能,例如计划,探索,决策等等,并将这些技能应用于以前从未遇过的问题。 学习两项任务过程的示意图:使用EWC算法的深层神经网络能够学习玩一个游戏,然后转移它学到的玩一个全新的游戏。
论文摘要 以顺序方式学习任务的能力对发展人工智能至关重要。直到现在,神经网络还不具备这种能力,业界也广泛认为灾难性遗忘是连接主义模型的必然特征。我们的工作表明,这个局限是可以克服的,我们能够训练网络,让它们将专业知识保留很长一段时间。我们的方法记住以往任务的方法是,选择性地减慢学习一些权重的速度,这些权重是对完成任务很重要的权重。通过识别手写数字数据集和学习一系列 Atari 2600 游戏,我们证明我们的方法是有效并且可扩展的。 具身认知 :智能应该完全从经验中学习 但即便掌握了迁移学习,构建可以用的人工智能仍然是一些零散的活动。研究人员真正希望得到的是如何系统地进行这些活动的一种基本的理论。这种理论的一个候选,被称为具身认知(embodied cognition)的理论认为,智能应该完全从经验中学习,而不是试图将智能从头开始设计到一个程序里。 Hofman 博士尤其支持这种方法。她认为视频游戏是探索这种理论的一个完美平台。20世纪80年代进行的实验“具身认知”的尝试是将传感器装到机器人身上,让他们通过到处跑,到处磕磕碰碰来学习现实世界是如何运作的。当时的研究人员用这种方法取得了一些成果,但在扩大实验规模方面遇到了问题。正如 DeepMind 的研究员 David Silver 所说:“机器人有很多齿轮,轮子和电机,以及各种各样的器件,你最后不得不花很多时间做维修工作。” 现实世界是最大的游戏场 视频游戏可以简化这个过程。在虚拟世界里的虚拟机器人是没有重量的,也没有各种部件,因此不需要维护。要改变它的技术参数也不需要拆开它,敲几下键盘就可以了。 它的环境也可以轻松改变。改变一个迷宫的格局不需要再重新焊接一遍金属片或者重新粘一遍塑料墙壁。一台计算机一次就可以运行数千个这样的模拟,让大量虚拟机器人一次又一次地尝试任务,每次尝试都是在学习。这是一种大规模的测试,而且允许学习过程被监视和理解,根本就不使用真实的机器。 DeepMind 的创始人 Demis Hassabis 认为,重要的事情是得确保虚拟机器人不会作弊。它只能使用虚拟的传感器可以收集到的信息进行导航。如果一个机器人要在“蒙特祖玛的复仇”或者“侠盗猎车手”游戏中学习度过重重危险,它必须得自己弄明白自己在游戏环境里的位置,处理当时“看到”的事情,而不能问运行游戏的计算机它在那个坐标。这是 DeepMind 教程序学习玩游戏采用的方式。 (责任编辑:本港台直播) |