AlphaGo的故事尚未完结,DeepMind就将目光投向了更有挑战的游戏领域。2016年11月,在暴雪公司的BlizzCon大会上,DeepMind正式宣布牵手暴雪,基于《星际争霸》游戏进行人工智能研究。 与围棋不同,《星际争霸》游戏的参与者需要在全局尚未明朗的情况下,只依据少数信息,猜测对手可能的战略、战术布置,并有针对性地设计自己的游戏策略。从技术上说,《星际争霸》的挑战要高于围棋,打赢《星际争霸》所需的决策技术,也许更接近人类在日常工作、生活中经常使用的思考与决策方法。从这个意义上说,DeepMind正向着更高级智慧的方向迈进。 游戏既是DeepMind团队最好的市场和公关手段,同时也帮助DeepMind在人工智能领域迅速建立起不同寻常的技术优势。借助在游戏领域取得的经验和方法,DeepMind已经开始用人工智能技术帮助谷歌的数据中心合理调度、分配电力资源,达到省电的目标。此外,DeepMind与牛津大学合作开发了根据人类说话时的口型猜测说话内容的唇读技术LipNet,与英国国家医疗服务体系(NHS)合作推出了综合性的医疗辅助应用Streams,与眼科医院合作帮助眼部疾病诊断……哈萨比斯说:“我坚信DeepMind正在从事的研究对人类的未来至关重要,而且这值得我们做出一些牺牲。” 从下象棋、开发游戏的天才少年,到利用人工智能技术造福人类的计算机科学家,哈萨比斯的梦想正在实现。一个会玩游戏的人工智能和一个会帮助医生诊疗疾病的人工智能,它们之间的技术,竟有如此之多的共同点——技术的神奇莫过于此。 德州扑克:开启新世界的大门?
围棋是一项讲究计算和形势判断能力的游戏。而德州扑克就与此不同,它讲究的是在多人博弈中,避免人性贪婪、恋战等弱点,并将科学的概率统计与灵活的实战策略很好地配合起来。人工智能已经在围棋领域取得历史性的突破,那么,在德州扑克的世界里,人工智能的表现又如何呢? 如前所述,在围棋、象棋等游戏中,人工智能可以和人类选手一样,在每一步决策前获得棋盘上的全部信息。这种限定规则,随时可以获取全部信息的游戏,我们可以称之为“完整信息的博弈游戏”。而在《星际争霸》或德州扑克中,人工智能和人类选手通常无法在特定时刻获得有关游戏的全部信息,比如,在德州扑克中,你无法知道对手的底牌是什么,你也不知道发牌员发出的下一张牌是什么,开奖,在这类“不完整信息的博弈游戏”里,人工智能必须像人一样,根据经验或概率统计知识,猜测对手底牌和下一张牌的可能性,然后再制定自己的应对策略。 来自卡内基-梅隆大学的托马斯·桑德霍姆(Tuomas Sandholm)教授与他的博士生诺姆·布朗(Noam Brown)最早开发了一款名为Claudico的德州扑克程序。Claudico是一个拉丁文单词,对应于德州扑克中的一种特别的策略——平跟(limping),指的是翻牌之前,选择跟大盲注而不加注的策略。平跟这种策略,在人类德州扑克比赛中,使用的频率并不是很高,但据托马斯·桑德霍姆介绍,计算机通过学习发现,使用这种策略有许多好处。值得注意的是,托马斯·桑德霍姆的团队在研发德州扑克程序时,主要不是向人类职业选手学习打牌技巧,而是让计算机通过自我训练,自己寻找最好的方 法。 Claudico在2015年初出茅庐的这次比赛以失利告终。这个剧情,有些像1996年IBM深蓝输给卡斯帕罗夫的那一次。与Claudico交过手的道格·波尔克说,Claudico与人类的打牌方式非常不同,“人类选手的下注数量可能是彩池的一半或四分之三,而Claudico有时只吝啬地以彩池的十分之一来下注,有时则以彩池的十余倍来下注。人类可不会用19000美元的下注去博取区区700美元的彩池”。 2015年的失利并没有让托马斯·桑德霍姆教授灰心。2017年1月,教授带着一个名为Libratus的新版本德州扑克程序卷土重来,再战匹兹堡的河流赌场。像上次一样,新版本程序的名字Libratus也是一个拉丁文单词,对应于程序使用的均衡(balanced)策略——这一策略源自数学家纳什定义的一种完美博弈的模型。 (责任编辑:本港台直播) |