码报:OpenAI提出强化学习新方法：让智能体学习合作、_本港台直播_J2开奖直播

参与：吴攀、Smith

让智能体（agent）学会合作一直以来都是人工智能领域内的一项重要研究课题，一些研究者也认为合作能力是实现通用人工智能（AGI）的必要条件。而除了合作，让智能体学会竞争可能也是实现这一目标的一大关键。近日，OpenAI、麦吉尔大学和加州大学伯克利分校的几位研究者提出了一种「用于合作-竞争混合环境的多智能体 actor-critic」。之后，OpenAI 发布博客对这项研究进行了解读，机器之心对该解读文章进行了编译介绍。

让智能体能在其中为资源进行竞争的多智能体环境是实现通用人工智能之路的垫脚石。

多智能体环境（multi-agent environment）有两个实用的属性：第一，存在一个自然的全套考验——环境的难度取决于你的竞争者的能力（而且如果你正在和你的克隆体进行对抗的话，环境就可以精确地匹配出你的技术水平）。第二点，多智能体环境没有稳定的平衡态（equilibrium）：无论一个智能体多么聪明，总会有让它变得更智能的压力。这些环境和传统环境相比有很大的不同，并且要想掌控它们我们还需要大量的研究。

我们已经设计了一个新算法 MADDPG（Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments），可用于多智能体环境中的中心化学习（centralized learning）和去中心化执行（decentralized execution），让智能体可以学习彼此合作和竞争。

码报:OpenAI提出强化学习新方法：让智能体学习合作、

用来训练 4 个红色智能体追逐 2 个绿色智能体的 MADDPG。红色智能体已经学会和「同伴」进行团队合作来追逐单个绿色智能体，以获得更高的奖励。同时，atv，绿色智能体学会了彼此分散，并且当它们中的一个正在被追逐时，另一个就会尝试接近水源（蓝色圆圈）以躲避红色智能体。

MADDPG 对 DDPG（https://arxiv.org/abs/1509.02971）这种强化学习算法进行了延伸，并从 actor-critic 强化学习技术上获得了灵感；也有其他研究团队正在探索这些思路的变体和并行实现的方法，参阅以下论文：

Learning Multiagent Communication with Backpropagation：https://arxiv.org/abs/1605.07736

Learning to Communicate with Deep Multi-Agent Reinforcement Learning：https://arxiv.org/abs/1605.06676

Counterfactual Multi-Agent Policy Gradients：https://arxiv.org/abs/1705.08926

我们把仿真实验中的每一个智能体都当作「演员（actor）」，并且每个演员都从「批评家（critic）」那里获得建议，从而来帮助 actor 去决策哪些动作在训练过程中应该被强化。传统上，critic 会设法去预测在一个特定状态中一个动作的价值（value，即将来期望得到的奖励），这个奖励会被智能体（actor）用来更新它自己的策略（policy）。和直接使用奖励（reward）相比，这无疑是更加可靠的，因为它可以根据具体情况来进行调整。为了让这种方法适用于多智能体全局协同（globally-coordinated）的情况，我们改进了我们的 critic，使它们可以获得所有智能体的观察结果和动作，如下图所示。

码报:OpenAI提出强化学习新方法：让智能体学习合作、

我们的智能体无需在测试的时候有一个中心 critic；它们可以基于它们的观察以及它们对其它智能体的行为的预测来采取行动。因为一个中心化的 critic 是为每个智能体独立学习到的，所以我们的方法也可以在多智能体之间构造任意的奖励结构，包括拥有相反奖励的对抗案例。

码报:OpenAI提出强化学习新方法：让智能体学习合作、

我们在许多不同的任务上对我们的方法进行了测试，其在所有任务上的表现都优于 DDPG。在上面的动画中你可以看到，从上到下：两个 AI 智能体试图到达特定地点，学会了分开行动以向其对手智能体隐藏其目标位置；一个智能体与另一个智能体沟通目标的名称；三个智能体协调，在不碰撞彼此的情况下到达目标。

码报:OpenAI提出强化学习新方法：让智能体学习合作、

使用 MADDPG（上）训练的红色智能体表现出了比那些使用 DDPG（下）训练的智能体更复杂的行为。其中，红色智能体试图通过绿色的森林来追逐绿色的智能体，同时绕过黑色的障碍。我们的智能体可以捕捉到更多智能体，而且也看得出来，我们的智能体比 DDPG 方法训练的智能体合作能力更强。

传统强化学习不给力的地方

(责任编辑：本港台直播)