码报:【图】深度 | 专访谷歌Jeff Dean：强化学习适合的任务与产品化应用_本港台直播_J2开奖直播

参与：王宇欣、杜夏德

最近在接受 Fortune 杂志采访时，Google 联合创始人兼领导人之一 Jeff Dean 谈到了最前沿的人工智能的研究、其中的挑战和人工智能在产品当中的应用。

码报:【图】深度 | 专访谷歌Jeff Dean：强化学习适合的任务与产品化应用

下次你在 Google 搜索引擎中输入问题或者使用谷歌地图服务以获取前往电影院的路线时，请记住，这些服务的背后有一个大脑在为你提供相关搜索结果，并确保你在驾驶的时候不会迷路。

实际上，它并非一个真正的大脑，而是谷歌大脑研究团队（Google Brain research team）。正如 Fortune 杂志的 Roger Parloff 写的，过去几年中，Google Brain 研究小组已经创造了超过 1000 个所谓的深度学习项目，开奖，催生了许多 Google 的产品，比如 YouTube，翻译（translation）和照片（photos）。通过深度学习，研究人员可以将大量数据输入到称为神经网络的软件系统当中，这些软件系统可以比人类更快地学习识别大量信息当中的模式。

问：研究人员在推动人工智能领域时面临的挑战是什么？

Jeff：很多人类的学习是来自无监督的学习方式，在这个过程中，你只是观察周围的世界并理解事物是如何运作的。这是一个非常活跃的机器学习研究领域。但是它还未达到监督学习能解决任务的那个程度。

问：所以无监督的学习指的是如何从观察和感知当中学习的，如果计算机可以自己进行观察和感知，这是否可以帮助解决更复杂的问题？

Jeff：的确，人类的视觉主要通过无监督的学习来获得训练。当你是一个小孩子的时候，你观察这个世界，但是偶尔有人说，「这是一只长劲鹿」或者「这是一辆车」的时候，你会得到一个监督的信号。这是你对世界天生的心理模型在回应你获得的少量的监督数据。

我们需要更多地结合使用监督学习和非监督学习。就我们的大多数机器学习的系统的工作方式而言，我们还没有真正的到达那一步。

问：你是否解释一下强化学习这种人工智能技术？

Jeff：强化学习背后的想法是，你未必需要清楚你要采取的行动。所以你可以先做出一个你认为不错行动，然后观察周围世界会有怎样的反应，这是一种探索行动序列的方式。就像是棋盘游戏一样，你可以根据你对手的行动来进行反应。最后，在整个一系列的行动之后，你得到了一些反馈信号。

强化学习的思想是，在你得到反馈信号的同时能将信用或责任分配到你所采取的所有行动。它在今天的某些领域非常有效。

我认为，当你所处的行动状态非常宽泛时，此时使用强化学习会就会有一些挑战。现实世界中存在的人可以在任何时刻采取的范围异常宽泛的行动。但是在棋盘游戏当中，你走的每一步棋都是限定在一定范围内的，游戏规则会有点限制并且回馈信号也会清楚得多。你要么赢，要么输。

如果我的目标是做一杯咖啡或者什么别的东西，我也许想要采取一大堆的动作，那么这个回馈信号就不会那么清晰。

但是仍然可以分解这些步骤，不是吗？举个例子，当你在做一杯咖啡的时候，你就会学习到如果没有在豆子被冲泡之前将他们完全碾碎—这就会做出来一杯糟糕的咖啡。

没错，我认为增强学习的一个本质就是它往往需要探索。因此，在物理系统的环境当中使用它有点困难。我们开始尝试将它应用在机器人当中。当机器人必须实际采取一些行动时，它会被限制在一个指定的日子中只可以采取有限数量的动作集中的动作。

问：Google 是否将强化学习应用在核心的搜索产品当中？

Jeff：我们主要通过 DeepMind [the AI startup Google bought in 2014] 和我们的数据中心操作人员之间的合作来将强化学习应用在核心产品中。他们使用强化学习来设置数据中心内的空调旋钮，并实现相同的，安全的冷却操作和操作条件，大幅降低能耗。他们能够探索哪些旋钮的设置能起作用，以及当你以不同的方式转动旋钮时，它们会如何反应。

通过强化学习，他们可以发现这 18 个旋钮的设置，或者还有很多多旋钮并未被操作人员考虑进去。了解这个系统的人会这样说，「哦，这真是一个奇怪的系统，」但是事实证明，它们的工作的相当不错。

问：强化学习用于那种任务更为合适？

(责任编辑：本港台直播)