本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频(2)

时间:2017-04-03 18:06来源:118论坛 作者:118开奖 点击:
星际争霸中的战斗,也就是微观管理任务,是指与敌方成员作战时对军队进行的低级别、短时间的控制。研究者把它作为一个零和随机游戏(SG),即多个

  星际争霸中的战斗,也就是微观管理任务,是指与敌方成员作战时对军队进行的低级别、短时间的控制。研究者把它作为一个零和随机游戏(SG),即多个智能体参与的多状态动态游戏。

  回报设计在多智能体学习合作或竞争行为的过程中非常重要。研究者将回报分为了全局回报(同一队中的每个智能体分得同样的回报)和个体回报。

  研究者接下来介绍了两个网络的设计。对于每个智能体来说,它们的参数是共享的,这使得参数的数量独立于智能体的数量。所产生的更紧凑的模型将能够学习多个智能体所经历的各种情况,从而加速学习过程。

  为了在智能体之间进行有效的沟通,研究者通过采用双向递归神经网络(RNN)在内部层引入专门的双向连接。

  

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频

图1 双向协调网络(BiCNet):(a)带分组的多智能体策略网络 (b)带回报设计的多智能体Q值网络

  研究中引入的双向协调网络(BiCNet)的结构如图1所示。它由策略网络(actor)和Q值网络(critic)组成,两者均基于双向RNN。策略网络用于独立智能体做出行动决策。因此,独立智能体能够保持自己的内部状态,同时能够与其他合作者共享信息。双向递归机制不仅是智能体之间的交流手段,而且还作为本地记忆状态。研究者进一步加强了actor的分组概念,这在社会行为中起着重要的作用。作为输入,我们允许少量的智能体程序在进入递归层之前构建局部相关性。因此,该模型的表现要好得多。在实验中,我们发现基于分组的actor有助于学习社会活动,如集中火力攻击。 Q值网络将策略网络的状态和行为作为输入,向每个独立智能体返回估算的本地Q值。然后组合本地Q值,提供全局回报的估计值。

  协作策略的学习

  经过充分训练, BiCNet能有效展现五种智能协作策略:

无碰撞地协调移动

  

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频

  (a)训练早期 (b)训练早期 (c)训练好后 (d)训练好后

图2 战斗中的协同移动 3 Marines (本方)vs 1 Super Zergling (敌人)

  研究者观察到,在学习的初始阶段(如图2(a)和(b)所示),多个智能体以相当不协同的方式移动,特别是当两个智能体靠近彼此时,其中一个可能会无意中阻挡了另一个的路。而随着训练的增加,碰撞次数会急剧下降。最后,当训练稳定后,协同的动作也会出现,如图2中右图所示。这种协同的动作也在图6(a)和(b)中示出。

攻击和逃跑策略

  

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频

  (a)被攻击时逃跑(b)安全时反击(c)再次逃跑 (d)再次反击

图3 战斗中的攻击和逃跑策略 3 Marines (本方)vs 1 Zealot (敌人)

  对于人类玩家来说,在星际争霸战斗中一个常用的战术是攻击和逃跑,也就是在被攻击时快速逃离,安全后进行反击。我们发现BiCNet 迅速学会了攻击和逃跑策略,无论是在单一智能体还是多智能体的环境中。图3显示了这一点。尽管攻击和逃跑策略很简单,它却是各种高级、复杂的合作策略的基础。

掩护进攻

  掩护进攻是经常在现实战场上使用的高级合作策略,其要义在于让我方一个智能体吸引敌方的注意和火力,与此同时其他智能体乘机发动进攻。掩护进攻的操作难点在于如何将多智能体的移动转换为协同序列式的攻击和逃跑。如图4和图5所示。这一点BiCNet 掌握得很好。

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频

  (a)时间节点1 (b)时间节点2 (c)时间节点3 (d)时间节点4

图4 战斗中的掩护进攻策略 4 Dragoons (本方)vs 2 Ultralisks (敌人)

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容