人工智能复杂的商业需求，正促使博弈 AI 的崛起(2)_本港台直播_J2开奖直播

葛冬冬介绍说，在杉数科技从事项目算法开发与实施的过程，发现很多现实中的商业问题不仅仅需要考虑最优化，很多时候还需要考虑到人类的行为，这些人类行为将给问题的解决带来额外的难度。

比如在考虑电商定价的时候，不仅要根据以前的价格历史来计算未来的最优价格，还要考虑到与顾客和竞争对手的反应。当价格低的时候，电商顾客会根据情况囤积自己的小库存，便宜就多买、不便宜就不买，同时竞争对手也会实时比价跟随定价。因此，在新零售等场景中，不再仅仅是数据驱动，还要考虑复杂情况下的顾客和竞争对手博弈等，这就应用了很多AI技巧。

博弈AI的崛起，正是复杂商业需求驱动的结果。

冷扑大师：超人类的机器战略思维

人工智能复杂的商业需求，正促使博弈 AI 的崛起

上海财经大学教授、奥数金牌、杉数科技科学家何斯迈

2017年1月，在宾夕法尼亚州匹兹堡的赌场里，Libratus冷扑大师挑战了世界排名前15中的4位“一对一无限注”德州扑克人类高手，在设计了非常保守的对人类极为友好的对战环境后，Libratus在20天赛程内一共进行了12万手牌比赛，最后Libratus以绝对优势战胜4位人类选手。

2017年4月，Libratus应邀以“冷扑大师”之名到中国与来自中国的一组扑克、AI和计算机高手组成的“龙之队”对决，冷扑大师最终以792,327总记分牌的战绩获胜，获得了此次表演赛的200万奖励。Libratus冷扑大师完胜中外的德州扑克高手，说明其代表的博弈AI算法已经到了相当成熟的高度。

Tuomas Sandholm在“AI时代的博弈与行为分析”分享会上介绍了Libratus的历史，这是一项长达12年的研究。

从最早的2005年Rhode Island Hold’em扑克游戏起步，该游戏是一种小型的扑克游戏，但也有高达31亿个决策节点，具备大型德州扑克的许多特征。Tuomas Sandholm与Andrew Gilpin于2005年在AAAI会议上发表了论文，介绍了该项研究的初步成果。

从2005年起步，Tuomas Sandholm和团队在2014年5月推出了Tartanian7人工智能系统并赢得了2014年ACAP计算机扑克大赛，2015年4月推出了下一代Claudico人工智能系统，但Claudico在2015年败给了人类选手。

2015年12月推出的下一代Baby Tartanian8赢得了2016年ACAP大赛，接着又推出了Tartanian8。最后，就是2017年1月的Libratus赢得了人机对战的胜利。

Libratus包括了三个模块，分别是赛前的游戏规则抽取和纳什均衡近似，赛中用到的残局解算（Endgame Solving）以及持续自我强化。

博弈论中的纳什均衡主要指博弈双方的理性参与者都不会有单独改变策略的冲动，而该系统中采用纳什均衡，使得不论对手用什么样的策略，都不能取胜。

在前期寻求纳什均衡的过程中，采用了CFR算法（Counterfactual Regret Minimization，反事实遗憾最小化）的强化学习，这是一个源自心理学的算法，即“如果当初做了另外一种选择就好了”的反向思考方式，这种强调试错的方法可以让机器自己和自己玩大量游戏。

通过CFR算法，Tuomas Sandholm向Libratus描述了游戏规则后，经过几个月的随机训练100万亿手牌后，达到了足以挑战最优秀人类选手的水平，还开发出了一些人类没有的玩法。

而在残局解算中，Libratus的改进算法包括考虑进了对方所犯下的错误、尽早开始残局解算、对手每出一招即实时展开残局解算（Nested Endgame Solving）等等。

而在持续自我强化模块，Libratus在比赛的每晚不是分析对手的问题，而是总结自己当天的主要败笔，这就好像人类每天总结自己的弱点再有针对性的弥补，这样自己的弱点越来越少，给对手的可趁之机也越来越少，这种主动防守型的打法，最坏的结果就是双方打成平手，所谓纳什均衡追求的就是一种平衡。

当然，12年的研究成果并不是聊聊几句就可以完全解释清楚。除了主要算法的改进外，Libratus在计算方面也有所改进以适应庞大的分布式计算需求。根据匹兹堡超算中心的数字，atv，Libratus约使用了150台服务器。随着硬件能力的提升，Libratus有望使用越来越少的计算资源，甚至将来有可能运行在手机里。

打开非完美信息世界之门

人工智能复杂的商业需求，正促使博弈 AI 的崛起

上海财经大学交叉科学研究院院长、杉数科技首席科学家葛冬冬（左），不列颠哥伦比亚大学（UBC）Sauder商学院助理教授丁弋川（右）

Libratus是博弈AI的最新成果和高度，当然这并不意味着Libratus就已经完美。Libratus针对的是一对一比赛的场景，主要是纳什均衡即针对一对一对场景，在多人博弈场景下纳什均衡就不太适用。此外，Libratus针对的是每场重置筹码的比赛，而人类不重置筹码的比赛也未必适用。

尽管Libratus还有局限性，但Libratus至少打开非完美信息世界的大门。

(责任编辑：本港台直播)