【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）(3)_本港台直播_J2开奖直播

我们的方法不同于基于模型的强化学习，后者需要系统识别以将观测映射到动力学模型中，然后产生解决策略。在强化学习的许多应用中，包括机器人操纵和移动场景中，进行准确的系统识别是极其困难的，同时建模错误会严重降低策略的表现。在这样的领域中，人们通常会选择无模型方法。由于 VIN 仅是神经网络策略，它可以进行无模型训练，不需要进行明确的系统识别。此外，通过训练网络端到端可以减轻 VIN 中的建模误差的影响。

我们证明了 VIN 可以有效应用于标准的强化学习和模拟学习算法中的各种问题，其中包括需要视觉感知，连续控制，以及在 WebNav 挑战中的基于自然语言的决策问题。在训练之后，策略学习将观察映射到与任务相关的规划计算中，随后基于结果生成动作预测的计划。正如我们所展示的结果，这种方式可以更好地为新的，未经训练的任务形式的实例归纳出更好的策略。

结论和展望

强大的和可扩展的强化学习方法为深度学习开启了一系列新的问题。然而，最近很少有新的研究探索如何建立在不确定环境下规划策略的架构，目前的强化学习理论和基准很少探究经过训练的策略的通用性质。本研究通过更好地概括策略表示的方法，朝着这个方向迈出了一步。

我们提出的 VIN 方法学习与解决任务相关的大致策略并计算规划，同时，我们已经在实验中证明，这样的计算方式在不同种类任务中具有更好的适用性，从简单的适用性价值迭代的网格世界，到连续控制，甚至到维基百科链接的导航。在未来的研究中，我们计划向基于模拟或最优线性控制学习的方向开发不同的计算规划方式，并将它们与反应策略相结合，从而为任务和运动规划拓展新的强化学习解决方案。

长按二维码阅读论文

以下是最佳论文《Value Iteration Networks》相关的演讲幻灯片介绍，演讲者为该论文的第一作者、 Berkeley AI Research Lab (BAIR) 博士后 Aviv Tamar。

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

P1-6：介绍

对于自动化机器人的目标（比如命令机器人打开冰箱给你拿牛奶瓶），用强化学习可以吗？深度强化学习从高维的视觉输入中学习策略，学习执行动作，但它理解这些策略和动作吗？可以简单测试一下：泛化到一个网格世界中。

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

P7-10：观察：反应性策略（reactive policies）的泛化效果并不好。

为什么反应性策略的泛化效果不好呢？

一个序列任务需要一个规划计算（planning computation）

强化学习绕过了它——而是学习一个映射（比如，状态→Q 值，状态→带有高返回（return）的动作，状态→带有高优势（advantage）的动作，状态→专家动作，[状态]→[基于规划的项]）

Q/返回/优势：在训练域（training domains）上的规划

新任务：需要重新规划（re-plan）

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

P11：在这项成果中，我们可以学习规划和能够泛化到未见过的任务的策略。

P12-14：背景

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

P16-21：一种基于规划的策略模型

从一个反应性策略开始

加入一个明确的规划计算

将观察（observation）映射到规划 MDP

[Image: https://dx903567.quip.com/-/blob/ZGWAAAmgzbz/PJmsMbEdvlUK-WTHNGTf9g] 假设：观察可被映射到一个有用的（但未知的）规划计算

神经网络将观察映射成奖励和转变（transitions）

然后，学习这些

怎么去使用这种规划计算？

事实 1 ：值函数 = 关于规划的足够信息

思路 1：作为特征向量加入反应性策略

事实 2：动作预测可以仅需要 V-*的子集

类似于注意模型，对学习非常有效

策略仍然是一个映射 g ?(s) → Prob(a)

映射 R-、P-、注意的参数 θ

我们可以反向传播吗？

反向传播怎么通过规划计算？

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

P22-23：价值迭代=卷积网络

　　P24-27：价值迭代网络（VIN）

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

P28-29：实验

问题：

1.VIN 能学习规划计算吗？

2.VIN 能够比反应策略泛化得更好吗？

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

P30-46：网格世界域

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

P47-51：火星导航域

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

P52-59：连续控制域

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

P60-72：网页导航域：基于语言的搜索

【j2开奖】独家 | 机器之心对话NIPS 2016最佳论文作者：如何打造新型强化学习观？（附演讲和论文）

P73-76：总结和展望

总结

学习规划→泛化

用于基于规划的神经网络策略的框架

由动态编程理论所激励

可微分规划器（VI = CNN）

神经网络的组合性（compositionality）——感知 & 控制

利用灵活的先验知识

简单易用

展望和讨论

不同的规划算法

MCT

最优控制（Optimal control）

逆向强化学习（Inverse RL）

如何获得近似规划问题

Atari 中的游戏手册

强化学习中的泛化

理论？

基准？

算法？

泛化 ≠ 终身强化学习，迁移学习

分层策略，但不是选择/技能等等

完整PTT请点击阅读原文下载

　　?------------------------------------------------

加入机器之心（全职记者/实习生）：[email protected]

投稿或寻求报道：[email protected]

广告&商务合作：[email protected]

(责任编辑：本港台直播)