wzatv:【图】独家专访 | 强化学习教父Richard Sutton：也许能在2030年之前实现强人工智能算法(3)_本港台直播_J2开奖直播

Sutton：强化学习的最大优势在于，你可以在正常运行中学习。传统的深度学习方式需要使用标记好的数据集进行训练，而强化学习并不需要这样做。你可以发挥想象力改变设定，因为你虽然没有足够的数据，但你知道在正常情况下应该怎么做。

AlphaGo 在围棋上的胜利则是另一回事。毫无疑问 AlphaGo 是一个伟大的成就，它的水平提高速度是前所未有的。AlphaGo 的成就很大程度上归功于两种技术的整合：蒙特卡洛树搜索和深度强化学习。

机器之心：让我们以 AlphaGo 作为例子。为什么自我对弈很重要？自我对弈有什么缺陷吗？人工智能可以在自我学习的过程中持续提高性能吗？

Sutton：自我对弈可以生成无限多的训练数据。你不需要人力来为这些训练数据做标注，这是我们都希望得到的。由此观之，我们也可以让计算机在模拟真实环境中生存和竞争。当然，AlphaGo 缺乏一个关键要素：理解世界运行机制的能力，例如对物理定律的理解，以及对物体动作反馈的预测。

这里就出现了一个问题，你只能在虚拟环境中自我对弈，而在现实环境中我们没有类似与游戏的规则可循，现实生活是无限美好的（笑）。你知道当你按下手机上的接听键接听一个来电，将会有一些事会发生。但你无法预测会发生什么，这不是游戏里已经安排好的设定，很多事情你不知道结果会是什么。在游戏中自我对弈的缺陷就在于此。

机器之心：深度学习需要大量数据。强化学习通常也需要提供大量样本进行训练。但是最近提出的 one shot learning（一次性学习）试图用很少的样本进行学习，这有点像是人类学习的方式了。你认为 one shot learning 可以用在强化学习中吗？

Sutton：目前的学习方式是慢速的，我认为 one shot 方式可以加快机器学习的速度。人类可以从一些经验中很快地学习到大量知识，这意味着我们可以进行 one shot learning，从很少的经验中汲取大量有用知识。

机器之心：谈完了强化学习的优势与技术突破，让我们来谈谈它的短处。你认为去强化学习和广义上的人工智能的短处在哪里？

Sutton：有几点非常重要，其中包括一个技术问题。先来谈谈大家都能理解的吧，这也是最大的问题。强化学习宽泛地说来，直播，就是让机器可以理解这个世界，随后利用自己所学的知识完成人类指定的任务，纠正自主行为。像 AlphaGo 和深蓝这样的程序不需要知道世界运行的规律。它们知道下一步棋可能的落子位置，知道所有下一步会带来局势上的优劣。人造系统现在已经可以在这方面做得很好了。我们希望把这种决策和预测的方式应用到其他领域中去，开奖，但这需要一种新的机制，需要让机器对世界建模。我认为这是目前最大的问题。我们现在对动态的真实世界缺乏有效的模型，无法让机器在其中对抉择与抉择的后果进行模拟以不断学习。一旦我们做到了这一点，我们就会构建出更强大的人工智能。

另外一些问题有关知识。机器要以何种方式作出预测？我们人类是以何种方式作出预测的？我们会试着用不同方法进行尝试看看后果，但不会全部试到全部结束。例如，当你走进一个房间，右手边是一杯水，有一把椅子，还有一些其他家具和人。你对房间里其他人的交流，或者和物体的交互会获得不同反馈，但人类只会去做一点点交互——也许永远不会拿起那杯水——因为我看着它就知道那是怎么回事了。这种从特定经验中学到的东西，我们称之为离策略（off-policy）学习，这种方式是目前强化学习领域中的最大挑战。

机器之心：这很有趣。我们还想知道更多的细节，如何更好地理解离策略（off-policy）学习？

Sutton：想要有效地了解离策略功能，你需要规模化的学习方式、需要使用未经处理的数据，而不必要总是有标签的图像的训练集，只需要通过纯粹地与世界互动来获取经验，并学习世界的运行方式……这种强化（学习）的方法是非常有趣的思路，人们应该尝试去做。

机器之心：感谢你的精彩论述。最后我们还想问问，你对强化学习的初学者有什么建议？

(责任编辑：本港台直播)