这两个项目在过去几年中走到了极限。在 2015 年 1 月,Bowling 的团队发表了一篇论文,其中显示了它要如何解决一对一有限制德州扑克的方法,因为它比无限制更简单,玩家能够在投注时被限制。Sandholm 和他的博士生 Brown 在过去的五年里一直投入在扑克 AI 上,并且在几个月之前举办了第一届的「Brains v. AI」大赛。他们的名为 Claudico 的机器人在和 4 名专业玩家的 8 万手比赛之后输掉了 73.2 万美元,Sandholm 认为比赛非常接近于平局,他同时声称有一个玩家还作弊了。 Sandholm 和 Brown 表示他们的 AI 系统已经在一些通用的领域得到了改善,Claudico 在比赛前期表现良好,但总是在手牌结束阶段犯错。而 Libratus 改进了许多部分,它的开发者们也在持续改进它。
Jason Les,参加人机大战的扑克选手之一。 而有关 Libratus 的所有细节都将会在其开发者发表的内容中展现出来,这种学术工作往往以各种方式映射到现实世界的扑克比赛中。据布朗说,年度计算机扑克大赛中已经引入了现金玩家,而 Bowling 也表示他自己的相关研究论文在机器人开发论坛的留言板上非常受欢迎,「专门有一群人在阅读这些研究资料并试图去理解它们」,他说。 Billings 在 2008 年也进入了扑克领域,他是从阿尔伯塔大学离开之后还从事研究行业的少数人之一,因为他们中的大多数都被运行游戏平台的公司雇佣了。而 Richard Gibson 则是其中的异类,他自己创立了一家名为 Robot Shark Gaming 的公司,这家公司开发 AI 程序去学习打策略型游戏。 Gibson 在 2013 年完成了他的博士学业,然后一群职业游戏玩家找上了他,让他帮忙开发一个能帮助他们训练的软件。Gibson 只知道他们中一个人的名字,也完全没见过其中任何一个客户。「即使他们没有用这个软件来在线赌博,这对我来说也不是什么光彩的事」,他说道。 Gibson 自己开发了多个程序,他还设计了软件去展示不同策略之间的有效性,在他最赚钱的一年里,Gibson 在这个项目上赚了大约 10 万美元,而他的客户还得再额外付出 2-3 万美元以搭建所需的计算能力。 当然,上面那些匿名客户并不是 Gibson 所有的客户。在一个案例中,他说有人给了他几万美元,让他在 6 个月的时间内开发一个轻量级的扑克机器人。他并没有询问那个人要如何使用它——他也不想知道——但是具体的设计却指向一个特定的应用程序。「我的客户想要一个独立的、可以加载到其笔记本电脑上的东西」,他说道,「我猜他们正试着在线上游戏中使用它们。」 离全方位碾压还有距离 在匹兹堡的每个夜晚结束的时候,Les 和他的扑克队友们一边订外卖,一边根据当天出牌的数据搜索 Libratus 的弱点。在月初的时候,他们每天早上醒来都很乐观,因为他们总能有一些新的技巧,「我们在前几天发现了具体的漏洞」,Les 说道,「我们不断地攻击它们,但现在以及结束了。」 Libratus 也在做着调整。在白天的时候,这个程序会把自己分成两个部分,一个部分在前面比赛,另一个部分则负责 Sandholm 所说的「持续性的策略提升」。到了晚上,程序则会完全关注到策略部分,使用超级计算机的 600 个节点来分析计算,这相当于约 3,330 台高端 MacBook 一起协同工作。 在扑克中,就像其他游戏一样,计算机已经开发出了能过滤给人类玩家的策略。就像 Les 所说的那样,他试图去找到一些能适应 Libratus 不规则投注的办法出来,但这非常困难。「很简单,我们就是没有那种心理能力去那样做」,他说道。 如果人类已经达到了像他们的计算机对手那样出类拔萃的能力,那像 Sandholm 和 Bowling 们的实验室就会面临着近乎相反的问题。同专业选手的一对一比赛是一回事,但我们现在还没有明确的办法让 Libratus 和 DeepStack 变得能在和一群有缺陷的普通人比赛中有信心获胜。这是由于 AI 使用的均衡策略会在多人比赛中失效,因为你在那一刻考虑的不再是给出完美一击,而是要确认并发现其他对手的弱点。 在几年前,Bowling 做了一个实验,他让三个机器人互相比赛。其中两个使用他们实验室最接近完美战法的策略,另一个则被设定为鲁莽型的。在比赛结束时,那个最笨的机器人损失了一点钱,一个完美型的机器人赚了最多的钱,但另一个则亏了最多。 (责任编辑:本港台直播) |