神经网络已被证明能有效地解决困难问题,但它们的架构的设计难度可能非常大,甚至只是对单独的图像分类问题也是如此。进化算法(evolutionary algorithm)是一种能用于自动发现这些网络的技术。尽管进化模型(evolving model)有显著的计算要求,但我们的研究表明今天已经可以使用进化模型实现媲美大型的人工设计的架构了。我们在前所未有的规模上使用了简单的进化技术来发现用于 CIFAR-10 和 CIFAR-100 数据集的模型,并且是从简单平常的初始条件开始的。为了实现目标,我们使用了全新的和直观的突变算子(mutation operator),其可以在大型搜索空间中寻找方向。我们要强调:一旦进化开始,其就不再需要人类的参与了,然后其会输出一个完全训练好的模型。在这项研究中,我们特别强调了结果的可重复性、输出结果的可变性和对计算的要求。 OpenAI 论文:用作强化学习的可扩展替代的进化策略(Evolution Strategies as a Scalable Alternative to Reinforcement Learning) 链接:https://arxiv.org/abs/1703.03864
我们探索了进化策略(Evolution Strategies/ES)的使用,这是一类黑箱的优化算法,可作为 Q-学习和策略梯度等流行的强化学习方法的替代。在 MuJoCo 和 Atari 上的实验表明 ES 是一种可行的解决策略,其可以很好地扩展到多个可用的 CPU 上:通过使用数百到数千个并行的工作器(worker),ES 可以在 10 分钟内解决 3D 人形行走的问题,而且在一小时的训练之后可以在大多数 Atari 游戏上实现很有竞争力的结果。此外,我们还突出强调了作为一种黑箱优化技术的 ES 的几个优势:动作频率和延迟的奖励对其不会产生影响、能包容非常长的时间、不需要时间贴现(temporal discounting)或价值函数近似(value function approximation)。 本文为机器之心编译,atv,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |