wzatv:【图】独家专访 | 强化学习教父Richard Sutton：也许能在2030年之前实现强人工智能算法_本港台直播_J2开奖直播

Richard S. Sutton 教授被认为是现代计算的强化学习创立者之一。他为该领域做出了许多重大贡献，包括：时间差分学习（temporal difference learning）、策略梯度方法（policy gradient methods）、Dyna 架构。

但惊人的是，Sutton 博士进入的第一个领域甚至与计算机科学无关。他先是获得了心理学学士学位，然后才转向计算机科学。但是，他并不认为自己转变了方向。他说：「和大多数心理学家关注的问题一样，我也对学习（learning）的工作方式很感兴趣，我在 1977 年获得了心理学学士学位；那时候学习在计算机科学领域还并不是很流行。因为我对人工智能或与人工智能相关的一切感到很好奇，所以我就选择了就读计算机科学的硕士，然后又读了博士。我对人工智能的看法受到了心理学领域关于人类和动物学习方面的影响——这也是我的秘密武器，因为人工智能领域的很多人都没有我这样的背景。我从心理学开始的，并且从中汲取了大量的灵感。」

wzatv:【图】独家专访 | 强化学习教父Richard Sutton：也许能在2030年之前实现强人工智能算法

1984 年，Sutton 博士在马萨诸塞大学安姆斯特分校（University of Massachusetts at Amherst）获得了博士学位。在 1985 年到 1994 年之间，他都是 GTE Laboratories 的计算机和智能系统实验室的技术组的主要成员。1995 年，他以资深研究科学家的身份回到了马萨诸塞大学安姆斯特分校并在那里一直呆到了 1998 年，之后他加入了 AT&T Shannon Laboratory 担任人工智能部门的主要技术组成员。他的研究兴趣围绕着决策者与其环境交互时所面临的学习问题，他将其看作是人工智能的核心问题。他也对动物学习心理学、连接网络（connectionist networks）、以及广义上的能够持续改进自己对世界的表征和模型的系统。2003 年之后，他成了阿尔伯塔大学计算机科学系的教授和 iCORE Chair，在这里他领导着自己的「强化学习与人工智能实验室

这个实验室的名字 RLAI 似乎在说明强化学习（RL）是所有人工智能问题的解决方案。但是，Sutton 博士在这次采访之中给了我们一个不同视角的解释。他指出有些人认为强化学习只是人工智能问题的强化，但实际上强化学习问题是实现人工智能的一种抽象的方法。他说：「我想说我们正在使用一种实现人工智能的方法，『强化学习与人工智能』是很有意思，其中的英语单词『and』意味着要么是两个单独的主题，要么就是互相包容的，它可能是『and』，也能是『or』。因为强化学习既是人工智能的一个子集，也是人工智能的一个源头。其中的关系挺模糊的。我们也仍还在寻找答案。」

强化学习是现在人工智能领域里面最活跃的研究领域之一，它是一种用于学习的计算方法，其中会有一个代理在与复杂的不确定环境交互时试图最大化其所收到的奖励（reward）。现在，如果你是一个强化学习的初学者，由 Richard Sutton 和 Andrew Barto 合著的《Reinforcement Learning : An Introduction》可能就是你的最佳选择。这本书提供了关于强化学习的简单明了的关键思想和算法的解释。Richard Sutton 和 Andrew Barto 的讨论从该领域的知识基础的历史延伸到了最新的发展的应用。但是，在 20 世纪 70 年代的时候，尽管机器学习被人所知且日益流行，但那时还没有出现强化学习这样的东西。

近日，机器之心走进了阿尔伯塔大学与这位强化学习的教父聊了聊。让我们看看 Sutton 在这次独家专访中说了些什么。

机器之心：强化学习是如何起步的？编写算法的起点是什么？

Sutton：这一直以来都是一个明显的思想——一个学习系统想要一些东西而且某些类型的学习方式缺失了。在 20 世纪 70 年代，Harry Klopf（1972,1975,1982）写了几篇解决类似问题的报告。他认识到适应性行为（adaptive behavior）的关键方面是失败（being lost），而那时候学习领域的研究者几乎都将关注的重心移到了监督学习上面。试错学习的关键思想却缺失了。我们试图弄明白其中的基本思想，然后发现他是对的。这一思想还从未在任何领域得到过研究，尤其是在机器学习领域；控制论、工程学和模式识别等领域也都没有研究——所有这些领域都忽略了这个思想。你可以在 50 年代看到一些早期的研究工作，那时候有人谈论过试验神经（trial neuro），但最后它还是变成了监督学习。它有目标和训练集，并且尝试记忆和从中进行归纳。

我们现在在谈论深度学习和强化学习，这很有意思。最开始的时候，情况也是类似——试图将强化学习和监督学习区分开。我们研究的目的是获得一个可以学习的系统，那就够了。所以强化学习找到了一种可以表现和最大化这个世界的方法，而监督学习只是记忆被给出的样本然后将其泛化到新样本上——但它们需要被告知该做些什么。现在，强化学习系统可以尝试很多不同的事物。我们必须尝试不同的事物，我们必须搜索动作和空间或定义学习来最大化世界。这个思想后来被丢弃了，Andrew Barto 和我则逐渐意识到这并没有出现在之前的研究中，而这是我们需要的。简单来说，这就是我们成为了先驱的原因。

(责任编辑：本港台直播)