这就是为什么 OpenAI 的新闻如此让人震惊。怎么会这样呢?最近有没有我没有觉察到的突破?当我开始更多地了解DotA 2机器人正在做什么,它是如何训练的,以及使用什么游戏环境,我得出的结论是,这是一个令人印象深刻的成就,但不是新闻界所认为的 AI 突破。这就是这篇文章要讲的东西。我想提供一个清醒的解释:他们带来了什么新东西。有一个过度夸张人工智能的进步是很危险的,比如以下这两条推特就很容易误导大众: 首先要说明的是,这些夸张的报道和错误的假设并不是OpenAI研究人员的错。 OpenAI通常都对其研究的贡献和局限都表述得非常直接和明确。我相信在这件事上也是一样的。OpenAI还没有公布他们的解决方案的技术细节,所以对于非专业的人来说,很容易就会得到错误的结论。 我们先来看看DotA 2机器人解决的问题实际上有多困难。比起AlphaGo又难在哪? •1v1 和 5v5 没有可比性:5V5 是DotA 2的一个经典游戏,这些游戏需要高级策略,团队沟通和协调,通常需要45分钟左右的时间。 1v1游戏会受到更多限制,两名选手基本上沿着单线行驶,并试图相互杀死,通常在几分钟内结束。在1v1中击败对手需要的是机械技能和短期战术,不涉及任何如长期规划或协调的事,但二者是当前的AI技术面临的大挑战。事实上,你可以采取的有用的行动的数量少于围棋的游戏。有效状态空间(玩家对游戏中目前正在发生的想法),如果以智能方式表示,应该比围棋还要小。 •Bot能获得更多的信息: OpenAI机器人(很有可能)是基于该游戏API的开发的,可以访问人类无法访问的各种信息。即使OpenAI研究人员限制访问某些类型的信息,机器人仍然可以访问比人类更准确的信息。例如,技能只能在一定范围内击中对手,并且人类玩家必须看屏幕并且评估当前与对手的距离,这需要反复练习。机器人知道确切的距离,并可立即决定使用说明技能。获得各种精确的数字信息是一个很大的优势。事实上,在游戏过程中,人们可以看到机器人好几次都是在距离的最大限制上使用技能。 • 反应时间: 机器人可以立即反应,人类不能。再加上上述的信息优势,这是另一大优势。例如,一旦对手所处距离超出攻击范围,机器人可以立即取消它。 • 学习操作一个单一的特定角色:游戏里总共有100个不同的角色,具有不同的天赋能力和优势。机器人学习玩的唯一的角色——Shadow Fiend,通常会立即进行攻击(而不是在一段时间内持续的更复杂的技能),并从所知道准确的距离和快速的反应时间中获益 - 这是机器人擅长的。 鉴于1v1主要是机械技能的游戏,机器击败人类玩家并不奇怪。由于环境受到严格限制,(可能)限制了一系列可能的行动,而且几乎没有必要进行长期的规划或协调,我得出的结论是,在这样的条件下击败人类玩家实际上比在围棋比赛中击败人类要容易得多。 我们并没有因为算法多聪明就在AI上忽然取得了进步,它之所以起作用是因为我们的研究员足够聪明,在目前条件的限制下做了正确地设定。 这一机器人的训练时间大概是2周左右,也证明了上述的推测。 AlphaGo需要在谷歌的GPU集群上进行数月高度分布的大规模训练。自那时以来我们取得了一些进展,但那并不是将计算要求降低一个数量级的东西。 现在,批评已经够多了。媒体可能对这件事有一点过度炒作,但它确实有一些非常酷、非常令人惊讶的地方。显然,这是大量具有挑战性的工程作业和团队合作的结果。 完全通过self-play训练:这个bot不需要任何的训练数据。它也不是从人类的演示学习。它是完全随机开始的,并且不断地以自己为对手进行游戏。虽然这种技术并不是全新的,但令人惊讶(至少令我惊讶)的是,正如有评论指出的,bot学习了人类玩家经常使用的技巧。我对Dota 2 的了解不是很多,不能判断这点是否很厉害,但我觉得这非常酷。这个bot也可能学习了人类玩家甚至不知道的其他技巧。这与我们在 AlphaGo 中看到的类似,就是人类玩家开始从 AI 的令人意想不到的动作中学习,并调整自己的游戏策略。 (责任编辑:本港台直播) |