上面我们说过的深度神经网络得出了一套人类棋手概率最高的下法,假设蒙特卡罗树搜索故事中那个完全不会下棋的人学习了这套下法,那么之后的“乱下”思考过程的起点就会提高很多。这样一来,蒙特卡罗树算法的计算量就减少很多,提高了效率。 第三步:AlphaGo 自己和自己下棋,来学习棋局。 围棋毕竟变化太多,AlphaGo 需要更多的棋局来学习,于是通过自我对弈产生新的棋局。 AlphaGo 自己和自己下棋,棋力的来源就是第一步通过学习人类棋局得到的落子方法。AlphaGo 左右互搏,自我对弈几万盘,就能总结出赢棋概率更高的新下法,接下来再用新下法自我对弈几万盘,以此类推,最终得到了一套棋力比最初只学习人类下法厉害很多的新策略。 那用这新的策略和蒙特卡罗树搜索结合是不是更厉害呢?答案却是否。 因为使用概率来训练的这种策略会让下法高度集中,变化太少,而蒙特卡罗树搜索需要更多的变化才更有效。
AlphaGo 在与樊麾对决时的局面评估。图片来自 Nature 第四步:局面评估。 这也是 AlphaGo 最厉害的地方是,它可以像人类一样在比赛过程中估计局面的优劣,这样才有第四局它判断获胜几率太小,选择中盘认输。 当一盘棋开始的时候,AlphaGo 先用第一步训练的下法下若干步,然后乱下一步,接着用第三步自我对弈训练产生的更厉害的下法下完整盘棋,然后对结果做一个评估,评估出“乱下”的那步棋造成的局面是好是坏。 AlphaGo 可以在一步的思考中乱下很多次,总有一次能匹配到真实对下棋的状况。而对这一步乱下以及后续结果的评估,就是对当前局面的判断。 10. 对弈柯洁的 AlphaGo,有着怎样的计算能力? 上一次战胜李世乭的 AlphaGo,根据 Deepmind 的说法,是一部运行在云端,由全世界的 Google 机房协作运算的人工智能。5 月 23 日 AlphaGo 战胜柯洁之后,Deepmind 老大哈撒比斯说明,这一次 AlphaGo 是全新的版本,不再使用分布式计算的方案,调用的计算能力只有李世乭版本的十分之一。 具体来说,这一次的 AlphaGo 只用了一个 Google TPU 的计算能力。 Google TPU 是 Google 去年首次发布的用于人工智能运算的专用硬件,全称 Tensor Processing Unit,中文可以翻译成张量处理单元,是一个饭盒大小的专用硬件。在人工智能研究里,包括 Google 在内都在大量使用通用处理器 CPU 和图形处理器 GPU 进行运算。比如曾经公布过的一个版本的 AlphaGo,使用了 1920 个 CPU 和 280 个 GPU,取得了 Go Ratings 网站的 3168 等级分,世界第一柯洁的等级分为 3625。 TPU 这种专用硬件的效率比 CPU 加 GPU 快很多。 上周的 Google I/O 大会上,Google 宣布了 TPU 2.0,它具有四个专用芯片,每秒可处理 180 万亿次浮点运算。64 个 TPU 可以拼在一起组成 TPU Pod,可提供大约 11500 万亿次浮点运算能力。Google 同时公布了一个数字,说 Google 的大型翻译模型如果在 32 块性能最好的 GPU 上训练需要一整天,而 8 块 TPU 就可以在 6 个小时内完成同样的任务。 2017 年底,Google 就会把 TPU 计算服务变成云服务,全世界的人工智能研究者都可以租用这种云服务,帮助加速人工智能研究。和亚马逊等公司提供的,基于 CPU 和 GPU 的人工智能云服务相比,Google 的 TPU 更有效率优势,从成本上来讲,也更便宜。 11. DeepMind 公司有什么来头? DeepMind 是一家成立于 2010 年、总部位于英国伦敦的初创公司,主要研究人工智能。2014 年 Google 以 4 亿英镑(约合 6.6 亿美元)的价格打败 Facebook,买下 DeepMind。这笔交易金额可以排进 2014 年全球初创公司收购金额前十。 公司创始人哈萨比斯曾有过数次创业经历,最后为了创造一个通用的、真正能思考的人工智能,创办 DeepMind。 12. 今天 DeepMind 在 Google 承担着什么角色? DeepMind 的研究围绕人工智能展开。2016 年 7 月前后,Google 用 DeepMind AlphaGo 的深度神经网络,预测 Google 内部 120 个数据中心和连带冷却风扇的各个时段用电量,然后分配能源,达到控制冷却系统和计算机服务器的耗电量的目的。 (责任编辑:本港台直播) |