我们的同步 A2C 实现比异步实现表现要好。目前尚未看到任何证据证明异步引入的噪声能够提供任何性能收益。该方法的一个优势就是当使用大型网络时,它在单 GPU 的机器上比 CPU 为主的 A3C 的实现更快。 我们的代码包含了用 A2C 来训练的 CNNs,LSTM 的实现。 论文:Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation 摘要:在该研究中,我们将近期的提出的 Kronecker 因子的近似曲率(K-FAC),和置信域优化,应用到深度强化学习中。我们将该方法命名为「Actor Critic using Kronecker-Factored Trust Region」,(ACKTR)。就我们所知,这是首个可扩展的置信域自然梯度 actor-critic 的方法。同时它也能直接从原始像素输入(raw pixel input)中成功学习连续和离散的控制任务。我们在 Atari 游戏和 MuJoCo 环境中对此方法进行测试。与之前最顶尖的 on-policy actor critic 方法相比,我们提出的方法不仅能够获取更高的奖励,而且平均样本效率提高了 2 到 3 倍。代码地址:https://github.com/openai/baselines。 (责任编辑:本港台直播) |