Libratus 的团队目前还没有公布它们的方法,所以这一程序是如何运作的还尚不清楚。但我们早知道的是,它使用了预先计算可能性和「转化」的方法,虽然它在游戏出现更多信息的时候会改进策略。但另一方面,随着可能的结果范围变得越来越窄,算法也可以实时计算出解决方法。 Libratus 也有一个学习元素。其开发者为其加入了一个自我提升的模块,其可以自动分析该 Bot 的玩牌策略,从而可以了解一个对手会如何利用它的缺点。然后它们使用这些信息来永久性地修补这些漏洞。 这两种方法需要明显不同的计算能力:DeepStack 的训练使用了 175 个 core years——相当于运行一个处理单元 150 年或运行几百台计算机几个月。而在比赛过程中,它可以在单一一台笔记本上工作。而 Libratus 则相反,在比赛之前和比赛过程中都使用了一台超级计算机,相当于大约 2900 个 core years。 它们会 bluff 吗? 会。人们时常以为唬牌是人类技能,但是,对一台计算机来说,读不读懂对手没啥关系,它们要做的就是处理博弈背后的数学原理。bluff 主要是 一种策略,确保玩家的下注模式不会让对手发现他们手里的牌。 好吧,哪个结果更亮眼? 主要看你问谁了。专家可能会在方法的错综复杂之处含糊其辞,但是,总体上这两个人工智能系统都已经玩了足够多的牌,取得了统计学上显著的胜利——而且对手都是职业玩家。 Libratus 玩了更多手,但是,DeepStack 没这个必要,因为它的团队使用了成熟的统计方法,这个方法能够从较少的博弈中证实比赛结果。较之 DeepStack,Libratus 击败了优秀得多的职业选手,不过 平均说来,DeepStack 赢得的优势更大。 两个人工智能系统会一较高下吗? 或许吧。比较棘手的一点就是计算能力存在较大差别,因此会影响游戏速度。我们很难找到双方都赞同的游戏规则。 阿尔伯塔大学计算机科学家 Michael Bowling、DeepStack 的研发者之一说他的团队打算与 Libratus 比赛。不过,Libratus 的研发、 CMU 的 Tuomas Sandholm 说,他们想先看看 DeepStack 击败 Baby Tartanian 8——他们团队较早的人工智能系统,能力也弱一些。 Bowling 强调,需要注意的是:胜者或许并不意味着它是更好的机器人程序。虽然大家都在尽力让比赛完美,但是,最接近完美的策略并不总是会在正面交锋中出现。一方可能会偶然击中对方的策略漏洞,但是,这并不意味着整体策略上也有更多或更大的漏洞。除非一个团队以明显优势胜,Bowling 说,「我的感觉是它不会像人类期望的那样博闻强识。」 在线扑克是不是没得玩儿了? 不会。虽然顶级玩家已经开始训练对抗机器,但是,许多在线扑克赌场仍然禁止玩家在比赛中使用机器人。 既然计算机又实现了一个征服人类的里程碑,接下来又该征服啥了? 还有几座高山等着我们呢。还有许多没被征服的游戏,比如桥牌,atv,它的规则复杂多了,因此目标也不那么明确了。 接下来,两个团队自然是要征服多人扑克。这意味着大家几乎要从头开始,因为零和博弈理论并不适用它们:在三人扑克游戏中,对手的一个烂招会间接阻碍另一个玩家,并非总是对对方有利。 但是,深度学习的直觉或许能帮助我们找到解决方法,即使在博弈理论并不适用的场景中,Bowling 说。他的团队率先试着将类似的办法应用到三人版的有限德扑中,他介绍说,结果发现,效果好得让人惊讶。 另一个挑战是训练人工智能玩游戏,但并不告诉它们游戏规则,而是随着游戏的进行,让系统自己发现规则。这一场景更加真实反映出真实世界的问题解决情况。 终极测试会是研究出不完全信息算法,使其能利用不完全信息来帮助解决杂乱无章的真实问题难题,比如金融和网络安全。 以下为发表在Science上的论文的摘要介绍:
摘要 (责任编辑:本港台直播) |