比赛中的一位职业选手Les 说:“我很兴奋能看到最新的 AI 是什么样的。我本以为 Claudico 很难对付。在第一次比赛之后的20个月内,Sandholm 博士和他的团队又有了新的资源和想法,我猜这个 AI 更难对付。” 虽然他认为机器这次会玩的更好,但是 Les 也认为人类选手改进了这项游戏。 Les 说:“从人类的角度,最近20个月以来扑克变得更难了。”他解释职业选手采纳了公开的游戏理论工具,这也提高了他们的水平。 根据 Sandholm 所说,新的程序Libratus,是重新创建的,用了新的想法,比其它扑克机器人有更多计算能力。 Sandholm 和他的博士生 Noam Brown 做这个新项目,他说他们用了匹茨堡超级计算中心的 Bridges 超级计算机来计算他们希望会赢的策略。 Sandholm 说 :”我们不设定策略,我们写算法去计算策略。” Sandholm 说:“我们疯狂地推动超级计算机进步。”花了将近1500万核小时计算以创建 Libratus,而 Claudico 花了200到300万核小时。这一计算过程还会在比赛中持续增长。 Libratus 是一个拉丁名字,代表着平衡和强大。选这个名字是因为程序算法采用了新的技术以达到博弈理论学家称为纳什平衡的状态。以卡内基梅隆校友也是诺贝尔奖得主约翰·福布斯·纳什命名的理论,纳什均衡是一对策略(双方每人一个),即当对方不改变策略的时候,没有一个选手能从改变策略中收益。 Libratus 其中一个新技术是更快速的达到均衡的方法。它能识别哪些路径打不出好牌。渐渐地,算法开始忽略这些不好的路径。 Sandholm 说:“我们发现这样不仅更快,答案也更好。” Claudico 常用的策略是limping,这是一个扑克术语指跟注混进去看看,而不是加注或者放弃。而 Libratus 偶尔也会这样。 另外一个改变是终局的策略。去年比赛时,职业选手发现 Claudico 会高一些太明显的很容易被揭穿的小计谋。不像 Claudico 那么依赖终局, Libratus 会用 Bridges 计算机实时计算新的终局解决方法和算法。 一对一(两个选手)不限注的德州扑克是一个极度复杂的游戏,有10的160次方(1后面160个0)信息集——每个集合都根据出牌方的理解有不同的路径。这个巨大的信息集比整个宇宙的原子数还多。 AI 必须在不知道所有牌的情况下做出决策,并发现对手的计谋。根据不限注规则,选手可能赌或者增加任意数量的筹码。 解决这样不完整的和误导性信息的问题可以应用到现实世界各个领域,例如商业、军事、网络安全和医疗。算法不是只用于扑克,还可以应用到无数信息不完整的决策场景。 PSC 高级研究总监 Nick Nystrom 说:“把 AI 延伸到现实世界的决策中,在这些细节未知和对手不断修改策略的场景,比有着完备信息或者问答系统要难得多。这才是真正有趣的点。” 2016年2月,Sandholm 和 Brown 较早时候开发的一个 AI 赢得了年度计算机德州扑克一对一不限注的冠军。 一对一的限注游戏更简单,大概有10的13次方的信息集,由卡内基梅隆校友 Michael Bowling 带领的Alberta 大学的计算机扑克团队已经近似最优地解决了。 为了确保比赛结果不是归于运气,四个职业选手会双双重复比赛——每组的选手 A 会收到跟计算机一样的牌来跟选手B 对战,反之亦然。每对的一个选手会在赌场大厅打牌,而它的对手被隔离在另外的房间。 资料来源:
https://www.cs.cmu.edu/news/upping-ante-top-poker-pros-face-vs-artificial-intelligence-0 新智元招聘 职位 运营总监 职位年薪:36- 50万(工资+奖金) 工作地点:北京-海淀区 所属部门:运营部 汇报对象:COO 下属人数:2人 年龄要求:25 岁 至 35 岁 性别要求:不限 工作年限:3 年以上 语 言:英语6级(海外留学背景优先) 职位描述 负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向 擅长开拓市场,并与潜在客户建立良好的人际关系 深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态 主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力 带领团队完成营业额目标,并监控管理项目状况 负责公司平台运营方面的战略计划、合作计划的制定与实施 岗位要求 大学本科以上学历,硕士优先,要求有较高英语沟通能力 3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作 对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解 具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力 (责任编辑:本港台直播) |