传统的去中心化强化学习方法(DDPG、actor-critic 学习和深度 Q 学习等等)难以在多智能体环境中学习,因为在每一个时间步,每个智能体都会尝试学习预测其它智能体的动作,同时还要采取自己的行动。有竞争的情形中,尤其如此。MADDPG 使用了一种中心化的 critic 来为智能体提供补充,这些补充信息包括它们同伴的观察和潜在动作,从而可以将一个不可预测的环境转换成可预测的。 使用策略梯度方法会带来进一步的难题:因为这会带来很高的方差,当奖励不一致时很难学习到正确的策略。我们还发现添加 critic 虽然可以提高稳定性,但是仍然不能应对我们的部分环境,比如合作交流(cooperative communication)。似乎在训练中考虑其它智能体的动作对学习合作策略来说非常重要。 初步研究 在我们开发 MADDPG 之前,在使用去中心化技术时,直播,我们注意到如果说话者在表达自己的去处时不一致,那么听话者智能体(listener agent)就常常会学会忽略说话者。然后该智能体会将所有与该说话者的信息关联的权重设置为 0,从而有效地「静音」。一旦这种情况发生,就很难通过训练恢复了;因为缺乏任何反馈,所以该说话者将永远无法知道它说的是否正确。为了解决这个问题,我们研究了最近一个分层强化学习项目(https://arxiv.org/abs/1703.01161)中提出的技术,这可以让我们迫使听话者在其决策过程中整合该说话人的表述。但这个解决方案没有作用,因为尽管其强迫听话者关注说话者,但对说话者了解应该说什么相关内容却毫无助益。我们的中心化 critic 方法有助于解决这些难题,可以帮助说话者了解哪些表述可能与其它智能体的动作相关。更多结果请参看下面的视频: 下一步 在人工智能研究领域,智能体建模(agent modeling)可谓历史悠久,很多场景都已经得到过了研究。过去的很多研究都只考虑了少量时间步骤和很小的状态空间。深度学习让我们可以处理复杂的视觉输入,而强化学习可以给我们带来学习长时间行为的工具。现在,我们可以使用这些能力来一次性训练多个智能体,而无需它们都了解环境的动态(环境会在每个时间步骤如何变化),我们可以解决大量涉及到交流和语言的问题,同时学习环境的高维信息。以下为原论文的摘要: 论文:用于合作-竞争混合环境的多智能体 Actor-Critic(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments) 论文地址:https://arxiv.org/pdf/1706.02275.pdf 我们探索了用于多智能体域(multi-agent domains)的深度强化学习方法。我们开始分析了传统算法在多智能体案例中的困难:Q 学习(Q-learning)因为环境固有的非平稳性(non-stationarity)而受到了挑战,而策略梯度(policy gradient)则饱受随智能体数量增长而增大的方差之苦。然后我们提出了对 actor-critic 方法的一种调整,其考虑了其它智能体的动作策略(action policy),能够成功学习到需要复杂多智能体协调的策略。此外,我们还引入了一种为每个智能体使用策略集成(ensemble of policies)的训练方案,可以得到更加稳健的多智能体策略。我们表明了我们的方法相对于已有的方法在合作和竞争场景中的能力,其中智能体群(agent populations)能够发现各种物理和信息的协调策略。 原文链接:https://blog.openai.com/learning-to-cooperate-compete-and-communicate/ 本文为机器之心编译,转载请联系本公众号获得授权。 ✄------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |