本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:OpenAI开源算法ACKTR与A2C:把可扩展的自然梯度应(2)

时间:2017-08-20 04:51来源:报码现场 作者:j2开奖直播 点击:
我们的同步 A2C 实现比异步实现表现要好。目前尚未看到任何证据证明异步引入的噪声能够提供任何性能收益。该方法的一个优势就是当使用大型网络时,

我们的同步 A2C 实现比异步实现表现要好。目前尚未看到任何证据证明异步引入的噪声能够提供任何性能收益。该方法的一个优势就是当使用大型网络时,它在单 GPU 的机器上比 CPU 为主的 A3C 的实现更快。

我们的代码包含了用 A2C 来训练的 CNNs,LSTM 的实现。

论文:Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation

码报:OpenAI开源算法ACKTR与A2C:把可扩展的自然梯度应

摘要:在该研究中,我们将近期的提出的 Kronecker 因子的近似曲率(K-FAC),和置信域优化,应用到深度强化学习中。我们将该方法命名为「Actor Critic using Kronecker-Factored Trust Region」,(ACKTR)。就我们所知,这是首个可扩展的置信域自然梯度 actor-critic 的方法。同时它也能直接从原始像素输入(raw pixel input)中成功学习连续和离散的控制任务。我们在 Atari 游戏和 MuJoCo 环境中对此方法进行测试。与之前最顶尖的 on-policy actor critic 方法相比,我们提出的方法不仅能够获取更高的励,而且平均样本效率提高了 2 到 3 倍。代码地址:https://github.com/openai/baselines。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容