Sutton:强化学习的最大优势在于,你可以在正常运行中学习。传统的深度学习方式需要使用标记好的数据集进行训练,而强化学习并不需要这样做。你可以发挥想象力改变设定,因为你虽然没有足够的数据,但你知道在正常情况下应该怎么做。 AlphaGo 在围棋上的胜利则是另一回事。毫无疑问 AlphaGo 是一个伟大的成就,它的水平提高速度是前所未有的。AlphaGo 的成就很大程度上归功于两种技术的整合:蒙特卡洛树搜索和深度强化学习。 机器之心:让我们以 AlphaGo 作为例子。为什么自我对弈很重要?自我对弈有什么缺陷吗?人工智能可以在自我学习的过程中持续提高性能吗? Sutton:自我对弈可以生成无限多的训练数据。你不需要人力来为这些训练数据做标注,这是我们都希望得到的。由此观之,我们也可以让计算机在模拟真实环境中生存和竞争。当然,AlphaGo 缺乏一个关键要素:理解世界运行机制的能力,例如对物理定律的理解,以及对物体动作反馈的预测。 这里就出现了一个问题,你只能在虚拟环境中自我对弈,而在现实环境中我们没有类似与游戏的规则可循,现实生活是无限美好的(笑)。你知道当你按下手机上的接听键接听一个来电,将会有一些事会发生。但你无法预测会发生什么,这不是游戏里已经安排好的设定,很多事情你不知道结果会是什么。在游戏中自我对弈的缺陷就在于此。 机器之心:深度学习需要大量数据。强化学习通常也需要提供大量样本进行训练。但是最近提出的 one shot learning(一次性学习)试图用很少的样本进行学习,这有点像是人类学习的方式了。你认为 one shot learning 可以用在强化学习中吗? Sutton:目前的学习方式是慢速的,我认为 one shot 方式可以加快机器学习的速度。人类可以从一些经验中很快地学习到大量知识,这意味着我们可以进行 one shot learning,从很少的经验中汲取大量有用知识。 机器之心:谈完了强化学习的优势与技术突破,让我们来谈谈它的短处。你认为去强化学习和广义上的人工智能的短处在哪里? Sutton:有几点非常重要,其中包括一个技术问题。先来谈谈大家都能理解的吧,这也是最大的问题。强化学习宽泛地说来,直播,就是让机器可以理解这个世界,随后利用自己所学的知识完成人类指定的任务,纠正自主行为。像 AlphaGo 和深蓝这样的程序不需要知道世界运行的规律。它们知道下一步棋可能的落子位置,知道所有下一步会带来局势上的优劣。人造系统现在已经可以在这方面做得很好了。我们希望把这种决策和预测的方式应用到其他领域中去,开奖,但这需要一种新的机制,需要让机器对世界建模。我认为这是目前最大的问题。我们现在对动态的真实世界缺乏有效的模型,无法让机器在其中对抉择与抉择的后果进行模拟以不断学习。一旦我们做到了这一点,我们就会构建出更强大的人工智能。 另外一些问题有关知识。机器要以何种方式作出预测?我们人类是以何种方式作出预测的?我们会试着用不同方法进行尝试看看后果,但不会全部试到全部结束。例如,当你走进一个房间,右手边是一杯水,有一把椅子,还有一些其他家具和人。你对房间里其他人的交流,或者和物体的交互会获得不同反馈,但人类只会去做一点点交互——也许永远不会拿起那杯水——因为我看着它就知道那是怎么回事了。这种从特定经验中学到的东西,我们称之为离策略(off-policy)学习,这种方式是目前强化学习领域中的最大挑战。 机器之心:这很有趣。我们还想知道更多的细节,如何更好地理解离策略(off-policy)学习? Sutton:想要有效地了解离策略功能,你需要规模化的学习方式、需要使用未经处理的数据,而不必要总是有标签的图像的训练集,只需要通过纯粹地与世界互动来获取经验,并学习世界的运行方式……这种强化(学习)的方法是非常有趣的思路,人们应该尝试去做。 机器之心:感谢你的精彩论述。最后我们还想问问,你对强化学习的初学者有什么建议? (责任编辑:本港台直播) |