学界 | 完善强化学习安全性:UC Berkeley提出约束型策略优化新算法(附代码) 2017-07-08 13:14来源:机器之心 原标题:学界 | 完善强化学习安全性:UC Berkeley提出约束型策略优化新算法(附代码) 选自BAIR Blog 作者:Joshua Achiam 机器之心编译 参与:Smith、黄小天、邱陆陆 强化学习作为深度学习的一个强大分支成就卓然,在电子游戏和仿真机器人等诸多场景中,皆能见其身影;强化学习甚至在阿尔法狗横扫人类围棋世界冠军的对决中发挥了不可替代的作用。但是一块「安全性」的乌云正降临在强化学习之上。有鉴于此,UC Berkeley 近日在其官方博客上发表了一篇题为《Constrained Policy Optimization》的文章,提出了一种提高强化学习安全性的新算法:约束型策略优化(CPO),希望能为强化学习走出实验室,安全可靠地迈向现实世界贡献一份价值。机器之心对原文进行了编译,链接请见文末。 深度强化学习已经在很难的控制问题上取得了卓越的成就:借助深度强化学习(deep RL),智能体(agent)已经学会了通过分析每个像素来打电子游戏,控制仿真实验和现实世界中的机器人,从示范中学习对象控制(object manipulation),甚至打败人类围棋冠军。我们希望能够在短期内把深度强化学习带出实验室,付诸实践,用于日常技术当中,比如无人机控制(UAV Control)和家用机器人。但是在此之前,我们不得不解决最为重要的问题:安全性。 我们最近研发了一种原则性很强的方法来把安全性需求和其它约束直接并入到一整族最新型的深度强化学习算法中。我们的方法——约束型策略优化(Constrained Policy Optimization——CPO),可以确保智能体在学习过程中的每一步都满足约束条件。具体来说,我们尝试满足成本方面的约束:设计者会给智能体应该避免的每一个结果都分配一个成本(cost)和一个限制(limit),而且智能体则会学着去使它的所有成本都保持在限制之下。 此类约束型强化学习方法面世已久,而且甚至已经在伯克利引出了与之密切相关的研究——概率型安全策略迁移(probalistically safe policy transfer)。但是 CPO 是首个让深度强化学习得以应用于一般情况下的约束型环境中的算法——而且,它是有理论上的性能保证的。 在我们的论文中,我们描述了一个运行 CPO 的高效方法,j2直播,并且展示了在真实的机器人仿真中,当满足任务中的约束条件时,CPO 可成功训练神经网络智能体实现奖励(reward)最大化。 如果你有兴趣把 CPO 应用到你的约束型强化学习问题当中,我们的开源代码正应所需:https://github.com/jachiam/cpo 为什么我们需要安全性约束? 强化学习智能体的训练目标是最大化奖励信号,人类必须事先指定设计这一过程的范围。如果奖励信号没有被正确设计,智能体就会去学习非计划中的甚至是有害的行为。如果设计奖励函数很容易,这将不是问题,但不幸的是从根本上来讲,奖励函数设计很有挑战性;这就是采用约束(constraint)的关键动机所在。 让我们用一个基于真实用例的简化案例来说明:一个移动式机器人理应在一个安全区域内完成一些任务(比如说绕圈跑)。如果它离开安全区域的频率小于一定的预选阈值(pre-selected threshold),我们就认为机器人是「安全」的,否则为「不安全」。 只考虑奖励(为了跑得尽可能快)和约束(离开安全区域的频率),在约束型强化学习环境中描述此类问题并不难。但是对于标准的强化学习来讲,由于我们不得不单独通过奖励函数设计所有的行为,问题将会变得很难。错误的奖励设计也能够导致智能体过于畏首畏尾, 导致无效;或者过于风险偏好, 并因此导致危险(这里的「安全」区域在两个蓝色挡板之间)。 还有另外一个角度解释为什么标准强化学习方法不利于安全性:强化学习智能体是通过试错来进行学习的,他们在收敛前会探索很多不同策略。所以,即使我们设计了一个可在最优情况下引导智能体通向安全策略的奖励函数,还是可能会在训练过程中导致不安全的探索行为。 (责任编辑:本港台直播) |