OpenAI 没有训练数以千计的算法以更好地解决一件事情,而是希望使用「工作器」算法来训练一个主算法以完成一项未知的任务,比如玩一个视频游戏或在一个 3D 模拟器中行走。这一技术并非教机器如何做决策的主要方式,但却是一种教机器更有效地学习特定知识的方式,OpenAI 研究者和论文合作者 Tim Salimans 解释说。这种进化算法能够监控工作器的学习方式,j2直播,并且从根本上学会学习——即,从相同量的数据中提取更多的知识。 为了进行研究,该 OpenAI 团队设定了 1440 种工作器算法来玩 Atari 游戏。这些工作器会一直玩下去直到 Game Over,结束后这些工作器算法会向主算法报告各自的得分。生成最好得分的算法被复制下来(和谷歌的研究一样),复制版本随机进行突变。突变后的工作器然后继续重复上述过程——有益的突变被奖励,坏的突变被淘汰。 这种方法也有自己的局限性,最主要的是工作器算法只返回一个数值(高分)到主算法。有最佳得分的算法保留下来,但要让主算法意识到任何明确的成功行为(move)将需要大量的计算能力。(可以类比为生物上的蚁群:工蚁出去寻找最优的解决方案,蚁后是信息中心。)换言之,OpenAI 学习的东西大都是关于成功的,零碎的其它东西则学得很少。 时间倒回到上世纪 80 年代,那时候神经进化和神经网络研究领域的大小还差不多。中加州大学的副教授兼 Uber 人工智能团队的成员()Kenneth Stanley 说: 很少有人思考过大脑是如何出现在世界上的,而大脑是智能在自然界中唯一的概念证明。一些人认为也许创造智能的最直接方式应该是在计算机中创造一种可以进化的、达尔文式的过程,使其成为小型的人工大脑。 神经网络的腾飞始于三位计算机科学家。1986 年,David Rumelhart、Geoffrey Hinton 和 Ronald Williams 发表的一篇论文《Learning representations by back-propagating errors》描述了一种可以增强网络从其错误中进行学习的能力的算法——反向传播(backpropagation)。这个研究成果极大地提升了人工设计的神经网络的效率,但一次即将到来的人工智能冬天抑制了其进一步的发展——那时候因为人工智能技术缺乏进展,研究资金被削减了。直到后来 Hinton 等人发表的论文使神经网络变得太有诱惑力之后,更广泛的计算机科学社区才放弃抵抗。他们的研究表明反向传播能让神经网络实现极大的增长,反过来又使得这样的神经网络能理解远远更加复杂的概念。这种网络被冠以「深度」之名——即「深度神经网络(deep neural networks)」,且已经发展成了目前最受欢迎的人工智能技术。 Stanley 说:「因此,对于类比大脑进化的神经进化这条线,人们的了解就出现了一些缺失。」 2002 年的时候,Stanley 的事业刚刚开始,他就写出了 NEAT 算法,该算法可以让神经网络随时间进化成更大和更复杂的版本。根据谷歌学术的数据,他的对应性论文《Evolving neural networks through augmenting topologies》已经被引用了至少 1600 次,而且自发表以来,就一直不断地被深度神经网络设计和神经进化方面的研究所引用。在 2006 年,Stanley 发表了一种可以实现更大规模的神经进化的算法 Hyper-NEAT,该算法的灵感来自于 DNA 的编码能力——DNA 仅需大约 30000 个基因就能编码带有数万亿个连接的数十亿个生物神经元。(Hyper-NEAT 的全称是 Hybercube-based NeuroEvolution of Augmenting Topologies。)今天,Stanley 说他很欣喜地看到自己的研究又回归成为了时代的思潮。 和 Stanley 一样,OpenAI 和谷歌也正在研究来自这个领域的两种不同的思想。谷歌的混合方法将经典的神经进化和反向传播等技术结合到了一起,从而实现了现在非常强大的深度学习:教一个算法如何在世界中采取行动,让其进化,而该算法的「孩子」将具有大多数积累的知识。OpenAI 的方法更类似于生物的进化方式。该团队在每一代仅允许随机突变来主宰该网络提升或失败的方式,也就是说其提升是完全通过随机进化创造的。这两项研究都有非常明确的目标——识别图像或在游戏中获得高分(即使马跑得更快)。该算法将如何实现目标就要看造化了。 以下是对谷歌和 OpenAI 的这两项研究的摘要介绍: 谷歌论文:图像分类器的大规模进化(Large-Scale Evolution of Image Classifiers) 链接:https://arxiv.org/abs/1703.01041 (责任编辑:本港台直播) |