图 9(左):在十个机枪兵对阵十三个小狗任务中,集火小组人数对于胜率的影响。图 10(右):不同人工智能方法的胜率曲线(10 枪兵 vs.13 小狗任务),BiCNet 的表现最好。 表 2:不同兵种对战的表现对比。其中 M=机枪兵,Z=小狗,W=幽灵战机。 BiCNet 是一种利用双向神经网络的多智能体强化学习框架。通过构建矢量化的评估-决策方式,其中每个维度对应一个智能体。智能体之间的协调通过内部双向通信完成。通过端到端学习,BiCNet 可以成功地学会多种有效协同策略。本研究证明了这一系统可以在即时战略游戏《星际争霸》中协调各兵种,产生多种有效战术。在实验中,研究者们发现指定奖励和学习策略存在很强的相关性。他们计划进一步研究这种关系,探索智能体在网络中是如何进行交流的,以及它们是否会生成一种特定的语言。此外,当双方都使用了深度多智能体模型进行游戏时,研究其中的纳什均衡问题将会非常有趣。 原文链接:https://arxiv.org/abs/1703.10069 本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |