本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】学界 | DeepMind提出比DQN更优的算法DQfD:可以从真实世界演示中进行强化学习

时间:2017-04-16 02:12来源:香港现场开奖 作者:www.wzatv.cc 点击:
2013 年,DeepMind 在 NIPS 发表的论文提出了深度 Q 网络(DQN,Deep Q-Network),实现了完全从纯图像输入来学习来玩 Atari 游戏的成果。之后其又在 Nature 上发文介绍了改进版的 DQN,引起了广

2013 年,DeepMind 在 NIPS 发表的论文提出了深度 Q 网络(DQN,Deep Q-Network),实现了完全从纯图像输入来学习来玩 Atari 游戏的成果。之后其又在 Nature 上发文介绍了改进版的 DQN,引起了广泛的关注,将深度强化学习推到了深度学习的热门研究前沿。近日,DeepMind 再次发文介绍了一种名叫「学习演示的深度 Q 学习(DQfD:Deep Q-learning from Demonstrations)」的更强大的算法,其表现水平和学习速度都优于之前的 DQN。机器之心在本文中对该研究进行了编译介绍,其中重点介绍了该算法的原理和部分结果。论文原文请点击文末「阅读原文」查阅。

  

wzatv:【j2开奖】学界 | DeepMind提出比DQN更优的算法DQfD:可以从真实世界演示中进行强化学习

深度强化学习(RL)在困难的控制问题上已经实现了一些众人瞩目的成功。但是,这些算法通常需要海量的数据才能达到合理的表现水平。实际上,它们在学习过程中的表现非常糟糕。对于模拟器来说,这能还能接受,但这严重地限制了深度强化学习在许多真实世界任务上的应用——在真实世界任务中,智能体(agent)必须要在真实环境中学习。在这篇论文中,我们研究了一种智能体以从系统之前的控制中获取数据的设置方法。我们提出了一种名叫「学习演示的深度 Q 学习(DQfD:Deep Q-learning from Demonstrations)」的算法,该算法可以利用这种数据来实现学习过程的大幅提速,即使只有相对较少的演示数据也可以。DQfD 的工作方式是将时间差分更新(temporal difference update)和演示者(demonstrator)的动作的大边际分类(large-margin classification)结合起来。我们表明 DQfD 在 42 种 Atari 游戏中的 40 种上都有比深度 Q 网络(DQN)更好的初始表现,而且其在这 42 种 Atari 游戏中的 27 种上都得到了更优的平均励。我们还表明即使给出的演示数据很差,DQfD 也能学得比 DQN 更快。

3 学习演示的深度 Q 学习(DQfD:Deep Q-learning from Demonstrations)

在许多真实世界的强化学习设置中,我们可以获取其之前的控制者操作该系统的数据,但我们无法获得一个该系统的准确模拟器。因此,在一个智能体被应用到真实系统之前,atv,我们想要智能体能尽可能地从演示数据中学习。这个预训练阶段的目标是学习使用一个价值函数(value function)来模拟该演示者(demonstrator),该价值函数满足贝尔曼方程(Bellman equation),因此当该智能体开始与其环境交互时,其就可以通过时间差分(TD:temporal difference)更新的方式被更新。在这个预训练阶段,该智能体会从演示数据中采样 mini-batch,并通过应用三种损失来更新该网络,它们分别是:双重 Q 学习损失(double Q-learning loss)、监督式大边际分类损失(supervised large margin classification loss)和在网络的权重和偏置上的 L2 正则化损失(L2 regularization loss)。其中监督式损失被用于对该演示者的动作的分类,而 Q 学习损失能确保该网络满足贝尔曼方程,且可被用作是 TD 学习的起点。

要让这样的预训练有效,该监督式损失是至关重要的。因为演示数据必然仅覆盖了一小部分状态空间(state space),没有涵盖所有的可能动作,所以许多「状态-动作」不会被包含进来,也没有数据将它们落实到真实的值上。如果我们打算仅使用 Q 学习更新来训练该网络以得到下一个状态的最大值,那么该网络就会向着这些未落实的变量的最高值更新,这样该网络就会通过该 Q 函数来传播这些值。加入一个大边际分类损失能将这些从未见过的动作的值落实成合理的值,使得由价值函数引起的贪婪策略(greedy policy)可以模拟其演示者(Piot et al., 2014a):

其中 aE 是该专家演示者在状态 s 时所采取的动作,l(s, aE, a) 是一个边际函数(当 a=aE 时,其值为 0;其它情况则为正值)。这个损失会迫使其它动作的值至少比演示者的值低一个边界(margin)。如果该算法仅使用这种监督式损失进行预训练,那么就没有什么可以约束这些连续状态之间的值,而该 Q 网络就无不能满足贝尔曼方程,但这又是使用 TD 学习来在线提升策略所需的。

我们也增加了应用于该网络的权重和偏置的 L2 正则化损失以帮助防止其过拟合于相对较小的演示数据集。

用于更新该网络的整体损失是这三种损失的结合:

λ 参数控制这些损失的权重。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容