编辑注:实际上,自 1979 年以来,Sutton 博士就一直在开发和推广强化学习。和其他人一样,Sutton 博士感觉到强化学习已经在早期的控制论和人工智能研究中得到过了探索。尽管强化学习显然受到最早期的一些关于学习的计算研究的启发,但这些研究中的大部分都转向了其它方面,比如模式分类、监督学习和适应性控制,或他们整体上放弃对学习的研究。此外,那时候计算机的计算能力还是很有限的,所以要将强化学习应用到真实世界问题上是很困难的,因为强化学习涉及到大量试错,之后才能收敛到一个最优策略,这可能会需要非常长的时间。 机器之心:你怎么看待强化学习自 20 世纪 70 年代以来的发展?因为那时候看起来强化学习还需要长时间的发展而且进展缓慢,你为什么还会对其有信心? Sutton:我不同意你所说的强化学习进展很慢的说法,但我确实同意计算资源给这一领域带来了很大的影响。我们需要时间等待可用的硬件。尽管那时候对深度学习来说还有一点早,它成功地使用了大量的计算提供助力。很长一段时间以来,人们都在说我们会在 2030 年拥有足以支持强人工智能的算力。但我认为这不仅仅依赖于廉价的硬件,还依赖于算法。我认为我们现在还没有强人工智能的算法,但我们也许能在 2030 年之前实现它。 机器之心:那么在 2030 年之前,硬件和软件哪一个更加关键? Sutton:硬件优先还是软件优先,这是个大问题。我们需要软件来测试我们的硬件,我们也需要可用的硬件来推动人们研发软件。在有限的计算资源上研究和工作,即使最聪明的人也不能带来很大的价值。即使是在 2030 年我们有了合适的硬件,我们可能仍然需要 10 年以上的时间等待最聪明的研究者研究出算法。现在你理解我的推理过程了,你可以自己重新判断一下或改变你原来的想法。 机器之心:近年来,人工智能已从心理学与神经科学的研究中受益良多,强化学习和卷积神经网络都是这样的例子。在你的新版《Reinforcement Learning: An Introduction》中,你也加入了相应的两个章节。心理学/神经科学对人工智能/强化学习有多重要? Sutton:强化学习最初受到大脑运行机制的启发。目前认为大脑的运行机制类似于强化学习。这也被称作是大脑中世界系统的标准模型(standard model of world system)。之所以称之为标准模型并不是因为它是完美的,而是因为所有人都在使用它。这就像当你成名后所有人都知道你,大脑奖励机制的理论也是一样的套路。我们的大脑是研究心理学和动物行为学的完美模型。另外一个重要的事情是:这个模型是基于学习的,你可以进行规划,这是对于各种可能发生情况的响应。这也是一个强化我们进行规划的方式的模型,让我们可以从不同的后果中学习经验。考虑到两者的关系,人工智能研究者正在试图找出意识和心灵的本质。 强化学习研究决策和控制,试图让机器在未知环境中做出最佳决策。深度强化学习研究在强化学习算法中使用了神经网络,让原始感官输入到原始电机输出的映射成为可能,消除了人工设计的过程。因此,如今深度强化学习(DRL)已经成为解决诸如游戏、决策问题、机器人控制等许多类型的问题的非常流行的方法。 编辑注:Sutton 认为强化学习和深度学习的整合是很好的技术演进。在特定领域内(如计算机视觉(CV)),他说道:「你完全可以不用强化学习就完成一个计算机视觉,用已有数据集监督学习正常训练的样本,但它不会有深度学习做出的结果那么好。我认为那会需要一点聪明和想象力才能做到。我认为计算机视觉如果使用一点强化学习的话,将会出现一个技术突破。」 (责任编辑:本港台直播) |