《星际争霸》里面 AI 的研究或者竞赛不是最近才出现的,其实在 2010 年的时候已经有大量的研究人员在研究《星际争霸》里面的 AI,主要是以 ALBERTA 大学为主的研究力量,包括一些老师和学生,而且有三个固定的竞赛和一些循环赛,大家在上面 PK。这一类 AI 的话是 Classic AI,也就是没有学习能力、没有模型、也不需要训练,而是基于预编程的规则,所以不是非常灵活,这种算法下的 AI 其实离真正超过人类或者打败人类目标还是非常非常远的,它们可以打败内置的 AI,但是还远远比不上人类的专业选手,甚至连普通选手基本上也打不过。 另外一类是 Modern AI,也就是以智能体自主学习为主的算法,从去年开始这个领域火起来了,一方面就是,阿里巴巴还有伦敦大学学院,最近我们在合作的基于《星际争霸 1》里面做一些新的 AI 的尝试。 另外就是 Google Deep Mind,去年 11 月份他们和暴雪合作,会基于《星际争霸 2》去开放一个 API,让大家基于《星际争霸 2》上开发自己的 AI 算法,另外像 Facebook 他们也有一些团队做这方面的研究。 深度强化学习 强化学习是非常接近人类学习的一个学习机制,通过这个 Agent 跟环境的交互,在交互当中学习。Agent 会观察周围的环境,然后环境会给它一些反馈,Agent 根据状态和反馈会做出一些动作,这些动作会或多或少的影响这个环境,环境会根据这个动作反馈一些 Reward,Reward 可能是奖励的也可能是惩罚的,Agent 根据这样的试错,不断的去调整。Agent 背后有两个概念非常重要,一个是不停的优化策略,什么样的状况下采用什么样的 Action 是合理的,另外一个是用价值函数评估当前的状态它的价值是怎么样的。 强化学习跟深度学习结合,就叫深度强化学习。因为深度学习或者神经网络是非常适合去做这种表示学习的,可以表示成一个复杂的函数。policy 或者 value 用神经网络去逼近的话,在工程上或者效率上是非常好的提升。 以 AlphaGo 的例子来讲,在训练的时候分成三个阶段,第一个阶段,从人类的棋谱里面学习人类的先验的知识,通过监督学习学习一个还好的、胜率比较高的 policy network,第二个阶段,基于监督学习学习出来的 policy network,然后自我对弈,通过 policy gradient 再去优化 policy network,这就比之前学出来的 policy network 要更好。第三阶段,再用学出来的强化学习版的 policy network 自我对弈,得到一个最佳的。 多智能体协作 其实目前为止所有的 AI 的智能体比较成功的一些应用基本都是这种单个的 Agent,其实对于人类来讲,协作智能是智能体的一个非常大的方面,我们的祖先智人为什么可以统治地球,其中一个很大的原因就是,他们学会了大规模的协作,而且是非常灵活的协作。可以想象一下,未来全部都是这种 AI 的智能体,它们能不能自我学习到人类水平协作的一个智能呢? 我们用了一个词 Artificial Collective Intelligence,这对现实和未来都有非常大的意义。比如手机淘宝,现在绝大部分流量背后都是一个算法推荐出来的,不管广告还是搜索其背后都是 AI 的智能体在做,目前这些智能体都是各出各的优化,或者推出自己的商品。 其实我们在考虑的是,比如手机淘宝首页里边有爱逛街、猜你喜欢这种位置,那么他们能不能够协同地去推出一些这样的商品,从而可以让用户的体验最好,让平台的价值最大化。其实以后可能都是算法经济、AI 经济,都是这种 AI 的 Agent,比如满大街可能都是自动驾驶的无人车,他们之间是不是也需要一些协作,让交通出行效率能够达到最大化。 (责任编辑:本港台直播) |