码报:OpenAI开源算法ACKTR与A2C：把可扩展的自然梯度应(2)_本港台直播_J2开奖直播

我们的同步 A2C 实现比异步实现表现要好。目前尚未看到任何证据证明异步引入的噪声能够提供任何性能收益。该方法的一个优势就是当使用大型网络时，它在单 GPU 的机器上比 CPU 为主的 A3C 的实现更快。

我们的代码包含了用 A2C 来训练的 CNNs，LSTM 的实现。

论文：Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation

码报:OpenAI开源算法ACKTR与A2C：把可扩展的自然梯度应

摘要：在该研究中，我们将近期的提出的 Kronecker 因子的近似曲率（K-FAC），和置信域优化，应用到深度强化学习中。我们将该方法命名为「Actor Critic using Kronecker-Factored Trust Region」，（ACKTR）。就我们所知，这是首个可扩展的置信域自然梯度 actor-critic 的方法。同时它也能直接从原始像素输入（raw pixel input）中成功学习连续和离散的控制任务。我们在 Atari 游戏和 MuJoCo 环境中对此方法进行测试。与之前最顶尖的 on-policy actor critic 方法相比，我们提出的方法不仅能够获取更高的奖励，而且平均样本效率提高了 2 到 3 倍。代码地址：https://github.com/openai/baselines。

(责任编辑：本港台直播)