本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:业界 | 人工智能将挑战德州扑克,与人类争夺20万美元奖金

时间:2017-01-06 18:26来源:天下彩论坛 作者:开奖直播现场 点击:
参与:吴攀、李泽南 攻陷围棋后,人工智能开始转向德州扑克。 。正如在 1997 年,IBM 的深蓝超级计算机击败国际象棋世界冠军卡斯帕罗夫那样,它已成为人工智能发展的里程碑事件

参与:吴攀、李泽南

  攻陷围棋后,人工智能开始转向德州扑克

。正如在 1997 年,IBM 的深蓝超级计算机击败国际象棋世界冠军卡斯帕罗夫那样,它已成为人工智能发展的里程碑事件。在下周,由卡耐基梅隆大学(CMU)开发的名为 Libratus 的人工智能系统即将开始一场新的挑战:试图在一对一、无限制投注的规则下击败世界最强的人类德州扑克玩家。

也许 Libratus 会很快与「深蓝」和 AlphaGo 相提并论,它正在试图解决与后两者大不相同的问题——围棋和国际象棋都是完全信息公开的博弈,玩家们可以看到棋盘上的每个旗子,考虑所有落子的可能性。相比之下,德州扑克属于不完整信息博弈,这对于人工智能来说更加具有挑战性。

「在完整信息博弈中,计算机可以在决策树中进行分析,」CMU 教授 Tuomas Sandholm 解释道,他与自己的博士生 Noam Brown 共同开发了 Libratus 系统。在国际象棋和围棋中,人工智能可以通过预测所有未来步骤的胜率来思考自己的下一步。「然而在不完整信息博弈中,事情就变得复杂起来了,你不知道对面手握什么底牌,」Sandholm 解释道。「这意味着你不能在决策树的架构下选择下一步了。而且,你也不知道发牌员在 flop、turn 和 river 上发出的下一张牌是什么。」

比宇宙中原子数量更多的组合可能性

不完整信息博弈早已被证明是难以攻克的计算机难题。对此,CMU 的人工智能研究者们专注于信息集(Tuomas Sandholm,2010),通过同时思考未知和已知变量各种可能状态的方式来进行预测。这需要强大的计算能力。「德州扑克有 10 的 160 次方个信息集,还有 10 的 165 次方个游戏树节点,」Sandholm 说道。这意味着牌局的可能性大于宇宙中所有原子的数量(目前可观测宇宙约有 10 的 75 次方个原子)。「而且即使宇宙中的每个原子是一个宇宙,所有原子的数量也无法与牌局的可能性数量相比。」

与 AlphaGo 不同,Libratus 系统不通过分析大量可能的下一步完成任务,这个 CMU 构建的新系统通过平衡风险与收益来决定自己的下一步——在纳什均衡定义中的完美游戏状态。John Nash,电影《美丽心灵》的原型,在 20 世纪 50 年代发展出了这一伟大理论,它随后成为博弈论的基石,并让 Nash 在 1994 年获得了诺贝尔经济学

「在存在两名玩家的零和游戏中,atv,如果有一人不遵从纳什均衡的策略,那么两名玩家获得的收益都将受损,但我们的系统不会这样,」Sandholm 解释说。「在此类游戏中,以纳什均衡的方式思考是最安全的。遵从规律的玩家将合理地获得受益,同时在任何地方都不会被对手利用。」

对于人类玩家而言是长时间的艰难折磨

对于和机器交手的人类玩家而言,他们面临的会是一个无情的对手。「我一直这样向大家描述当时的感觉,用一个词来描述:折磨。(与计算机交手的)最初的几天,我们每天都玩到了深夜,当我们打完牌回到酒店后,我们会继续研究几个小时再睡觉。然后我们会在早上 9 点起床,再度过这样的一天,」Jason Les 说道,他是 CMU 请来与 Libratus 原型版本交手的第一位职业玩家。这次比赛中,他将再次披挂上阵。

对于观众们来说,计算机与人类在德州扑克上的对决或许不如 AlphaGo 那样引人注目,后者曾创造了具有诡异美感的新棋风。「很多人把 Libratus 的策略视为只会防守,它想做的是避免被击败,然后在所有对手都有所疏忽的时候展开反击。」

人工智能采用了颠覆传统的玩法

但 Sandholm 很快指出,玩法传统并不代表安全。「这个扑克程序,以及一年半之前的 Claudico 程序,它们都想出了新花招。他们会玩出一些有经验的扑克玩家会认为很糟糕的玩法。」比如说,开奖,在一手扑克的第一轮,limping(注:在 Pre-Flop 只有跟注盲注而没有加注)表示你跟注对手,即用最小数量的钱继续玩一手。所有的扑克书上都说这是一种糟糕的玩法,但 CMU 的扑克 bot 有 7% 到 16% 的时间会选择 limping。

「这与这个游戏的民间智慧是真正矛盾的,」Sandholm 说,「这些算法是单纯从这个游戏的规则中总结出的这种玩法,我们没有给它们任何人类这样玩的历史数据。它们玩得就像火星人一样,它们想出了自己的策略。」这个人工智能还总是利用 donk betting(注:翻牌前只有跟注,翻牌后在没有位置时率先下注)来破坏规则,将主动权从之前一轮的最后一位玩家那里抢过来。

人类玩家也在学习人工智能的策略

「我认为它们向人类表明一些非传统的策略也是有效的,」Les 说,「但是,在现实中,如果没有计算机的帮助,它们实在太难效仿了。」

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容