摘要:深度强化学习方法通常在动作空间中借助噪声注入(noise injection)进行探索性行为。一个替代方案是直接向智能体的参数中添加噪声,这可带来更连续性的探索和更丰富的行为集。进化策略等方法使用了参数扰动,但是摈弃了所有的时间结构,并需要更多的样本。通过结合参数噪声和传统强化学习方法,我们取得了双赢的结果。通过对高维离散动作环境和连续控制任务中的 DQN、DDPG 和 TRPO 进行实验对比,我们证明了离线与在线策略(off- and on-policy )方法皆可从加入参数噪声的方法中获益。我们的结果表明带有参数噪声的强化学习将比分别带有动作空间参数和进化策略的传统强化学习效率更高。 原文链接:https://blog.openai.com/better-exploration-with-parameter-noise/ (责任编辑:本港台直播) |