在 Atari 游戏中,用 1 小时在 720 核上训练进化策略取得了的表现可媲美于在 32 核上训练一天的 A3C。下面是在 Pong、Seaquest 和 Beamrider 游戏中的结果片段。这些片段显示了预处理的画面,也就是代理在玩游戏时所看到的: 特别要注意 Seaquest 游戏中的潜水艇在氧气值低的时候学习准确率会上升。 相关研究 进化策略是源自神经进化系的算法。神经进化在人工智能中有着很长的历史,完整文献原因超出本文所覆盖的范围。我们鼓励感兴趣的读者查阅 Wikipedia、Scholarpedia 的相关文献,以及 Jurgen Schmidhuber 的回顾文章(Section 6.6)。最影响我们研究的一项工作是 Wierstra 等人在 2014 年作出的自然进化策略(Natural Evolution Strategies)。相比于该工作以及它所启发出的其他工作,我们专注于将这些算法延展到大规模的、分布式环境中,寻找让这些算法能与深度神经网络很好结合的组件,并在现在的强化学习基准上评估这些算法。 还值得注意的是神经进化相关的方法最近在机器学习研究中有所复苏(resurgence),例如 HyperNetworks、Large-Scale Evolution of Image Classifiers 和 Convolution by Evolution。HyperNetworks,「Large-Scale Evolution of Image Classifiers」和「Convolution by Evolution」. 结论 我们的研究表明神经进化方法在现在的代理-环境基准上,可与强化学习的方法相媲美,同时在代码复杂性上也有重大收益、易于延展到大规模分布式环境。我们也期望通过重新回顾这条线上的其他观点从而作出更多激动人心的工作,比如间接编码方法,或者除了参数以外用其他方法进化网络架构。 注意监督学习:要注意的一点是监督学习问题(例如图像分类、语音识别或者产业中的大部分其他任务)并不受这些成果的直接影响。监督学习可以用反向传播方法直接计算损失函数的确切梯度。例如,在初步试验中我们使用进化策略在 MNIST 数字识别任务上评估梯度,发现它要比使用反向传播的方法慢 1000 倍。只有在强化学习环境中,也就是必须要用采样评估预期奖励(expected reward)的梯度,进化策略才具有可比性。 代码发布:最后,如果你想要尝试运行下进化策略,你可以阅读以下论文,或了解 GitHub repo 的详细细节。 论文: https://arxiv.org/abs/1703.03864 Github: https://github.com/openai/evolution-strategies-starter 本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |