本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:OpenAI 新论文疑似“作弊”,谁才是最优强化学习(2)

时间:2017-07-30 04:14来源:天下彩论坛 作者:j2开奖直播 点击:
研究人员尝试使用 TRPO 和 ACER 等方法来减少这些缺陷,TRPO 和 ACER 等方法能够约束或优化一次策略更新(policy update)大小。这些方法也都有其各自的 trad

研究人员尝试使用 TRPO 和 ACER 等方法来减少这些缺陷,TRPO 和 ACER 等方法能够约束或优化一次策略更新(policy update)大小。这些方法也都有其各自的 trade-off,比如 ACER 要比 PPO 复杂,需要额外添加代来修正离策略(off-policy)和重构缓冲器,TRPO 虽然对连续控制任务非常有用,但对于那些在策略和价值函数或辅助损失函数(auxiliary losses)间共享参数的算法兼容度很低,而后者恰好对于解决 Atari 等视觉输入很重要的领域的问题时很重要。

PPO

通过监督学习,我们可以轻松地实现成本函数,并在成本函数上运行梯度下降,只需相对少量调参就能得到很好的结果。让强化学习成功的路径并不明显,因为算法通常具有很多难以调试的活动模块,需要大量精力调整才能获得良好的效果。PPO 算法很好地在实现简单性、样本复杂度和调参难度之间取得了平衡,PPO 尝试在每一迭代步计算一个更新,直播,将成本函数最小化,同时在计算梯度时确保与先前策略有相对较小的偏差。

PPO 使用了一种新的目标函数,这种目标函数很少在其他算法中出现:

报码:OpenAI 新论文疑似“作弊”,谁才是最优强化学习

这种目标函数实现了一种与随机梯度下降相匹配的置信域(Trust Region)更新,通过移除了 KL 惩罚,不需要更新,从而简化了算法。在测试中,PPO 在连续控制任务中取得了最好的性能,在 Atari 上取得了几乎能够与 ACER 相媲美的性能。

可控制的复杂机器人

用 PPO 训练的智能体发展出了灵活的移动策略,可以在朝目标地点移动时临时转向和倾斜。

OpenAI 的研究员介绍,他们用 PPO 训练出的策略的基础上创造了交互式智能体,用键盘在 Roboschool 环境中为机器人设置新的目标地点。哪怕输入序列与训练时的序列不同,智能体也成功实现了泛化。

他们还使用 PPO 教复杂的仿真机器人走动,比如上面视频中显示的波士顿动力 Atlas 机器人。这种模型有 30 个独立关节。还有研究人员用 PPO 训练机器人跨越障碍,取得了魔性的跑酷效果

所以,OpenAI PPO 论文结果是否真如他们说的那样好,感兴趣的同学可以尝试复现。OpenAI 还发布了 PPO 和 TRPO 的可扩展并行实现工具。

或许,你能解答 Github 用户 peastman 的困惑。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容