Duan et al.(2016) 比较了各种算法,并表明 DDPG、TRPO 和截断性自然策略梯度(TNPG)(Schulman et al., 2015) 在训练深度神经网络策略中颇有成效,但分层任务(hierarchical tasks)也还需要更好的算法。 5.6 结合策略梯度与 Q-Learning 6 奖励 逆向强化学习(IRL/inverse reinforcement learning)是给定观察最佳行为来确定奖励函数的问题(Ngand Russell,2000)。在激励学习或学徒制学习中,代理学习使用来自专家的轨迹样本并从其演示中执行任务,代理学习没有强化信号,在训练时也没有来自专家的额外数据;模仿学习的两种主要方法是行为克隆和逆向强化学习;行为克隆被制定为监督学习问题,将状态行动对(state-action pairs)从专家轨迹(expert trajectories)映射到策略中(Ho and Ermon,2016)。 6.1 生成对抗网络 6.2 生成对抗式模仿学习 7 规划 Tamar et al. (2016) 提出了价值迭代网络(VIN),即一个用于近似价值迭代算法的完全可微分的 CNN 规划模块,它可用于学习规划,例如强化学习中的策略。与传统的规划相反,VIN 是无模型的,其中的奖励和转移概率是要学习的神经网络的一部分,从而避免系统识别的问题。VIN 可以通过反向传播进行端到端训练,它也可以在一组不同的任务中泛化:VIN 可以泛化在一组不同的任务:简单的网格世界(gridworlds)、火星车导航、连续控制和用于维基百科链接导航的 WebNav Challenge(Nogueira and Cho, 2016)。价值迭代网络及决斗网络(Wang et al.,2016b)的一个优点便是它们能为强化学习问题设计新型深度神经网络架构。欲访问有关 VIN 的博客,请点击 goo.gl/Dr8gKL。 8 注意和记忆 注意(attention)和记忆(memory)是两个重要的机制,在许多情况下它们一起发挥作用。 Mnih et al. (2014) 引入循环注意模型(RAM/ recurrent attention model)来关注图像或视频的区域或位置的选定序列,用于图像分类和对象检测。作者使用 RL 方法特别是 REINFORCE 算法来训练模型,以克服模型不可微分的问题,并对图像分类任务和动态视觉控制问题进行实验。Xu et al. (2015) 整合了图像字幕的注意,用 REINFORCE 算法训练硬版本的注意机制,并在 Flickr8k、Flickr30k 和 MSCOCO 数据集上展示了注意的有效性。注意机制也应用到了 NLP 中,如 Bahdanau et al. (2015; 2017),以及应用外部记忆的可微分神经计算机中(Graves et al., 2016)。 Graves et al.(2016) 提出了可微分神经计算机(DNC),其中神经网络可以从外部存储器读取与写入,使 DNC 可以解决复杂的结构化的问题,而没有读写存储器的神经网络却不能解决。DNC 将内存分配干扰最小化,并实现了长期存储。类似于常规计算机,在 DNC 中,神经网络是控制器,外部存储器是随机存取存储器;并且 DNC 用存储来表示并操纵复杂的数据结构。不同的是,DNC 使用梯度下降来学习端对端的表示和操纵,而梯度下降的数据是目标导向的。当使用有监督学习来训练时,DNC 可以解决合成问题来用于自然语言的推理;它可以解决交通网络中两个站点之间的最短路径定位问题和家庭树中的关系推理问题。当使用强化学习来训练时,DNC 可以解决一个使用被符号序列指定的变动性目标的移动块拼图。DNC 优于正常神经网络,如 LSTM 或 DNC 的前身神经图灵机(Graves et al., 2014),若碰到更困难的问题,LSTM 可能会失败。虽然这些实验是相对小规模的,我们仍期望看到 DNC 的进一步改进和应用。 欲查阅 Deepmind 对于 DNC 的描述,请点击 goo.gl/58mgoX。欲查阅注意与/或记忆的更多信息,如 Ba et al. (2014); Eslami et al. (2016); Gregor et al. (2015); Jaderberg et al. (2015); Oquab et al.(2015);Yang et al.(2015);Zagoruyko and Komodakis(2017);Zaremba and Sutskever(2015); Weston et al. (2015); Sukhbaatar et al. (2015); Ba et al. (2016); Danihelka et al. (2016); Kaiser and Bengio (2016),请参阅 goo.gl/ArW2nE 和 goo.gl/UukROv,这是有关注意与记忆的博客。 9 无监督学习 Jaderberget al.(2017) 提出了无监督的强化辅助学习(UNREAL),通过共享一个共同的表征(representation),并在通常的累积奖励之外最大化伪奖励功能,从而提高学习效率。UNREAL 通过学习大量的可能训练信号而受益,特别是当外部奖励信号很少被观察到时。UNREAL 由 RNN-LSTM 基本代理,像素控制,奖励预测和值函数重放组成。基本代理(base agent)使用 A3C 进行在策略(on-policy)训练。观察、奖励和动作的经验存储于答复缓冲器(reply buffer)内,以供辅助任务使用。辅助策略使用基础 CNN、LSTM 以及解卷积网络(deconvolutional network)来使输入图像中不同区域的像素强度的变化最大化。奖励预测模块通过观察最后三个帧来预测下一帧中的短期外在奖励,以解决奖励稀疏性的问题。值函数重放则会进一步训练值函数。UNREAL 改善了 A3C 在 Atari 游戏上的表现,并在 3D Labyrinth 游戏中表现出色。欲访问Deepmind有关 UNREAL 的官方博客,请点击 goo.gl/zhqBGy。 (责任编辑:本港台直播) |