【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）(2)_本港台直播_J2开奖直播

在强化学习方面，我得到了 Pieter Abbeel 教授，Sergey Levine 教授，Aviv Tarmar 博士，还有他们组里的很多博士生的帮助。他们都是领域里最厉害的学者，让我学到了非常多的东西。

在自然语言处理方面，我在今日头条实验室实习的时候得到了李磊博士的很多指导，回到 Berkeley 后，我和 David Bamman 教授也有合作，他也是圈内顶尖的学者，也总能给我提出很有价值的建议和指导。

　　机器之心：获得 BestPaper 是意料之中的事情吗？有什么感想？

答：大家知道消息的时候还是挺意外的，也很高兴。毕竟 best paper 是个很高的荣誉，这一次 NIPS 也有很多非常非常优秀的工作，能够被选中，大家都非常开心。

最佳论文：Value Iteration Networks

摘要

在本研究中，我们介绍了价值迭代网络（value iteration network, VIN）：一个完全可微分的神经网络，其中嵌入了「规划模块」。VIN 可以经过学习获得规划（planning）的能力，适用于预测涉及基于规划的推理结果，例如用于规划强化学习的策略。这种新方法的关键在于价值迭代算法的新型可微近似，它可以被表征为一个卷积神经网络，并以端到端的方式训练使用标准反向传播。我们在离散和连续的路径规划域和一个基于自然语言的搜索任务上评估了 VIN 产生的策略。实验证明，通过学习明确的规划计算，VIN 策略可以更好地泛化到未见过的新域。

引言

　　过去十年中，深度卷积神经网络（CNN）已经在物体识别、动作识别和语义分割等任务上革新了监督学习的方式。最近，CNN 被用到了需要视觉观测的强化学习（RL）任务中，如 Atari 游戏、机器人操作、和模拟学习（IL）。在这些任务中，一个神经网络（NN）被训练去表征一个策略——从系统状态的一个观测到一个行为的映射，其目的是表征一个拥有良好的长期行为的控制策略，通常被量化为成本随时间变化的一个序列的最小化。

强化学习（RL）中决策制定的连续性（quential nature）与一步决策（one-step decisionsin）监督学习有本质的不同，而且通常需要某种形式的规划。然而，大部分最近的深度强化学习研究中都用到了与监督学习任务中使用的标准网络十分相似的神经网络架构，通常由用于提取特征的 CNN 构成，CNN 的所有层都连在一起，能将特征映射到行动（action）的概率分布上。这样的网络具有内在的反应性，同时特别的一点是它缺乏明确的规划计算。序列问题中反应策略的成功要归功于该学习算法，它训练了一个反应策略去选择在其训练领域有良好长期结果的行动。

为了理解为什么一个策略（policy）中的规划（planning）是一个重要的要素，可以参考一下图 1（左）中网格世界的导航任务，其中的 agent 能观测其域的地图，并且被要求在某些障碍之间导航到目标位置。有人希望训练一个策略后能解决带有不同的障碍配置的该问题的其他几个实例，该策略能泛化到解决一个不同的、看不见的域，开奖，如图 1（右）显示。然而，根据我们的实验显示，虽然标准的基于 CNN 的网络能被轻易训练去解决这类地图的一个集合，它们却无法很好的泛化到这个集合之外的新任务中，因为它们不理解该行为的基于目标的形式。这个观察结果显示被反应策略（reactive policy）学习的计算不同于规划（planning），它需要解决的是一个新任务。

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

图 1：一个网格世界域的两个实例。任务在障碍之间移动到全局。

在这个研究中，我们提出了一个基于神经网络的策略（policy），它能有效地去学习规划（plan），我们的模型，termeda 值迭代网络（VIN），有一个可微分的「规划程序」，被植入了该神经网络结构。我们方法的关键是观测到经典值迭代（VI）规划算法可能由一个特定类型的 CNN 表征。通过将这样一个 VI 网络模块植入到一个标准的前馈分类网络中，我们就获得了一个能学习一个规划计算的神经网络模型。这个 VI 模块是可微分的，而且整个网络能被训练去使用一个标准的反向传播。这就让我们的策略简单到能训练使用标准的强化学习和模拟学习算法，并且直接与神经网络整合，用于感知和控制。

(责任编辑：本港台直播)