报码:OpenAI 新研究：通过自适应参数噪声提升强化学习(2)_本港台直播_J2开奖直播

报码:OpenAI 新研究：通过自适应参数噪声提升强化学习(2)

时间:2017-07-28 19:51来源:天下彩论坛作者:118开奖点击: 次

摘要：深度强化学习方法通常在动作空间中借助噪声注入（noise injection）进行探索性行为。一个替代方案是直接向智能体的参数中添加噪声，这可带来更连

摘要：深度强化学习方法通常在动作空间中借助噪声注入（noise injection）进行探索性行为。一个替代方案是直接向智能体的参数中添加噪声，这可带来更连续性的探索和更丰富的行为集。进化策略等方法使用了参数扰动，但是摈弃了所有的时间结构，并需要更多的样本。通过结合参数噪声和传统强化学习方法，我们取得了双赢的结果。通过对高维离散动作环境和连续控制任务中的 DQN、DDPG 和 TRPO 进行实验对比，我们证明了离线与在线策略（off- and on-policy ）方法皆可从加入参数噪声的方法中获益。我们的结果表明带有参数噪声的强化学习将比分别带有动作空间参数和进化策略的传统强化学习效率更高。

原文链接：https://blog.openai.com/better-exploration-with-parameter-noise/

(责任编辑：本港台直播)

顶一下

(0)

踩一下

(0)

------分隔线----------------------------

上一篇：wzatv:CVPR 2017李沐介绍MXNet新接口Gluon：高效支持命令式
下一篇：wzatv:CVPR 2017论文解读：Instance

栏目列表

推荐内容

码报:央行要求支付宝纠正支付宝年
（原标题：支付宝年度账单默认勾选引央行关注，曾要求其纠正...
紫光控股继续增持联想控股 22日再
啪啪啪讯12月22日，紫光控股发布公告称，于12月22日进一步购入...
wzatv:Alphabet董事长明年1月卸任：他
（原标题：谷歌母公司执行董事长施密特明年1月卸任：他给谷歌...
码报:和创金服房平：再过三五年会
啪啪啪讯12月21日消息，近日和创金服CEO房平在接受啪啪啪采访中...
码报:外媒：腾讯悄悄打造中国迪斯
（原标题：China's Tencent Has Quietly Built An Entertainment Empire That Wes...
wzatv:CBNData消费大数据报告：90后是
啪啪啪讯 12月20日消息，今日CBNData根据过去一年里对中国大消费...

热点内容