4 月 10 日,atv,持续五天的德州扑克人机大赛落幕,由六位中国顶级的德州扑克选手组成的龙之队不敌由卡内基梅隆大学开发的德州扑克AI 冷扑大师 Libratus(以下简称冷扑大师),最终输给对手 792327 分。 这是一场「预料之中」的失败。和去年李世石与 AlphaGo 对战前的信心满满不同,龙之队的队长、曾任人人网副总裁,现任常春藤资本合伙人的杜悦赛前就曾经直言:挑战冷扑大师,自己的胜率最多 10% 左右,不会超过 20%。 为了降低运气成分,保证公平,在这次比赛中,六位选手被分成 AB 两组,人类玩家和机器的手牌是对调的,AB 两组队员分别使用完全相同的两副牌与机器一对一交叉对战德扑,每位选手在五天时间里总共要和机器打 33000 手牌,并且实时结算。 在五天的对战里,六名人类队员被分割安置在会场的两端焦灼应战。而在会场另一边的狭小房间里,则由冷扑大师的缔造者卡内基梅隆大学教授 Tuomas Sandholm 和爱徒 Noam Brown 坐镇——二人的主要任务是确保冷扑大师在这里能够顺利运行,并且在每天的战局结束后,为冷扑大师的表现进行评估、「修复漏洞」,第二天继续整装上阵。 冷扑大师的「套路」 输给冷扑大师并不意外。今年 1 月,冷扑大师在宾夕法尼亚州匹兹堡 Rivers 赌场的德扑牌桌上,就曾经打败 4 位人类职业玩家,夺走了共计 176 万筹码。 但赛前龙之队还是被寄予了期待,不同于年初匹兹堡德扑人机大战中四位职业玩家只是扑克高手,龙之队的成员清一色的具备计算机和专业德州扑克的双重技能,这也让选手有机会去窥探冷扑大师的「套路」。 虽然团队总体得分最终不敌 AI,j2直播,但在比赛过程中,几位人类队员的个人成绩曾几次反超机器。 计算能力强于人类千万倍的冷扑大师终究还是机器,一两天过去,龙之队的成员开始摸到了一些冷扑大师的「套路」:「机器玩的很『猛』、很喜欢拿小牌下大注,bluff(唬人)能力了得,以此扰乱对手的策略。」 于是在比赛进行到的第三天时,龙之队意识到,如果在机器面前适当「装怂示弱」,将会在一定程度上影响冷扑大师的步伐和判断,结合概率和运气的机会也许能够反戈一击。于是在第三天里,龙之队的队员童舟抓住这样的规律实现了连续几场的「上水」。 筋疲力尽与隐隐的恐惧 不过这样的策略最多只能保证人类少输,却没有办法让人类获得很大的赢面——就像杜悦所说,每天都能做到牌局上的小胜,但是每次都胜的精疲力尽。而机器是不知疲倦的,更不会受到现场分数变化带来的情绪影响。 有趣的是,冷扑大师并不完全如其名字那样面对对手毫无声色,它也会感知人类选手的情感情绪,并强化学习。龙之队的队长杜悦提到一个细节:「有些选手很情绪化,可以哀嚎,有感情。你明显能看出来机器也会上头,有时候机器也会做出非常疯狂的举动,甚至模仿打的最好的那个选手的行为。」 最终,五天八场比赛结束,人类勉强维护住了尊严,但机器又一次展现出了它强大的计算力。 极客公园创始人张鹏在五天的正式挑战结束后第一时间参与冷扑大师对战体验,他谈到了面对冷扑大师时的「无力感」:「在跟冷扑大师打牌的时候,会有一丝隐隐的恐惧,即便运气爆棚拿到一手好牌,AI 也不会上钩,会迅速弃牌。简单的运气和一般的高智商在面对冷扑大师时几乎起不到作用。」 冷扑大师战胜人类意味着什么? 「如果机器和围棋的对决涵盖的是完美信息问题,那么德扑其实涵盖的是不完美信息对称的时候,机器如何做出选择的问题。」在极客公园前沿社的活动上,创新工场创始人李开复这么解释德扑人机对战背后的真正意义:曾经人类以为在 EQ、感性等方面的长处也在遭到的机器挑战,至少在德扑这个领域,机器已经学会了炸胡、虚张声势等等手段。而在现实生活中,很多商业洽谈,甚至外交方面的各种博弈其实也是一样的道理。 冷扑大师背后其实是一个大型的 AI 谈判算法,但它并没有用到 AlphaGo 的核心深度学习、神经网络等技术,而是利用了比较传统的线性规划,其核心理论就是博弈论。需要计算概率的、一对一的德扑对战涉及到的本来就是一个零和问题。博弈论可以在非合作对策中告诉人们最佳策略是什么,而博弈论和 AI 技术整合在一起,就能帮助机器在最短时间里用算法找到最佳策略,找到最接近纳什均衡的结果。 (责任编辑:本港台直播) |