本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频(3)

时间:2017-04-03 18:06来源:118论坛 作者:118开奖 点击:
在图4的时间节点1中,BiCNet 控制着下面的两个 Dragoon 从敌方 Ultralisk 处逃离,这时右上角的一个智能体立刻开始攻击 Ultralisk,以掩护 Dragoon。作为回应,敌

  在图4的时间节点1中,BiCNet 控制着下面的两个 Dragoon 从敌方 Ultralisk 处逃离,这时右上角的一个智能体立刻开始攻击 Ultralisk,以掩护 Dragoon。作为回应,敌方开始进攻上方的智能体(时间节点2).这时下面的两个Dragoon 开始反击,来掩护上方的同伴。通过这样连续不断的循环掩护,Dragoon 队保证了对敌人的持续打击,同时将本方团队损失降到了最小(因为敌人浪费了时间来定位不同的 Dragoon)。

  

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频

  (a)时间节点1 (b)时间节点2 (c)时间节点3 (d)时间节点4

图5 战斗中的掩护进攻策略 3 Marines(本方)vs 1 Zergling (敌人)

  在战斗“3 Marines vs. 1 Super Zergling”(如图5)中,我们修正了敌人的数量,并通过改变攻击得分和 Zergling 的损坏情况,来调整游戏难度。

集中火力攻击(但不在已死的目标上浪费子弹)

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频

  (a)时间节点1 (b)时间节点2 (c)时间节点3 (d)时间节点4

图6 战斗中的集中火力攻击策略 15 Marines (本方)vs 16 Marines (敌人)

  随着智能体数量的增加,如何高效配置进攻资源变得很重要。既不能漫无目的的攻击所有敌人,也不能只关注一个敌人。策略网络中的分组设计在这一环节扮演着关键角色。在实验中,研究者根据智能体的地理位置对智能体进行了动态分组。以此为基础,BiCNet 获得了多智能体的组内行为和组间行为数据。对于同一组的智能体来说,它们的行为连贯性好,并被期望能够集中火力在一到两个敌人身上;对于不同组的智能体来说,对它们的期望是将火力集中在不同的敌人身上。在图6的“15 Marines vs. 16 Marines”战斗中,本方的战斗单位被粗略地划分到三个组中。研究者发现智能体学习到了集中火力攻击两、三个敌人,而不同组的智能体能够学到将阵型散开,以使火力形成网状。即使本方战斗单位减少了,每一组仍然可以被动态指派,来确保有3-5个单位在集中火力攻击同一个敌人。

异构智能体间的合作

  

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频

  (a)时间节点1 (b)时间节点2 图7 战斗中的异构智能体合作策略 2 Dropships 和 2 Tanks (本方)vs 1 Ultralisk (敌人)

  星际争霸中,有10种智能体类型,每一个都有其独特的功能、行动空间、优势以及弱点。对于一场包含了多类型单位的战斗来说,研究者期待合作可以以各单位的特性为基础来展开。实际上,通过将参数限制为只可分享给同类型的单位,异构合作可以轻易地在研究者所提出的框架中实施。这篇论文研究了一个简单的案例:两艘 Dropship 和两辆坦克协作对战1个Ultralisk。Dropship 没有进攻能力,但它最大可以在空中移动两个地面单位。如图7所示,当 Ultralisk 进攻一辆坦克时,Dropship 护送坦克逃离了攻击。与此同时,另一艘 Dropship 将一辆坦克卸载到地面,对 Ultralisk 发起攻击。Dropship 和坦克之间一直这样合作,atv直播,直到Ultralisk被摧毁。

  性能表现对比

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频

在十个机枪兵对阵十三个小狗任务中,小组人数对于胜率的影响

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频

  不同算法胜率曲线(10 枪兵 vs.13 小狗任务),CommNet是Facebook的相关算法,BiCNet 的表现最好

  

【j2开奖】阿里多智能体协作网络BiCNet争霸星际,展现五大可观测智能 | 独家视频

  不同兵种对战的表现对比。其中 M=机枪兵,Z=小狗,W=幽灵战机。阿里的算法CommNet表现最好。

  小结

  本文利用双向神经网络,介绍了一种新的深度多智能体加强学习框架。凭借构建一个向量化的 actor-critic 框架——其中每个维度对应于一个智能体——系统学会了合作。内部层中的双向沟通实现了协调。通过端到端的学习,BiCNet 可以成功学到几种有效的协调策略。研究实验显示了其合作能力和在星际争霸中掌握各种战斗的能力。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容