舒石 唐旭 发自 东瑶村 量子位 报道 | 公众号 QbitAI
到底是谁击败了柯洁? 答案似乎显而易见。但量子位之所以问这个问题,是因为如今击败柯洁的AlphaGo,与去年击败李世乭的AlphaGo,有着本质的区别。 DeepMind把AlphaGo粗略分成几个版本: 第一代,是击败樊麾的AlphaGo Fan。与Zen/Crazy Stone等之前的围棋软件相比,棋力要高出4子。 第二代,是击败李世乭的AlphaGo Lee。与上一代相比,棋力高出3子。 第三代,是柯洁如今的对手,也是年初60连胜的:AlphaGo Master。相比于击败李世乭的版本,棋力又再次提升3子。 需要强调的是,直播,AlphaGo Lee和AlphaGo Master有着根本不同。不同在哪里,今天DeepMind创始人兼CEO哈萨比斯(Demis Hassabis),AlphaGo团队负责人席尔瓦(Dave Silver)联手首度揭开新版AlphaGo的秘密。 量子位这一篇推送的内容,整理自哈萨比斯、席尔瓦今日上午的主题演讲,还有今日午间量子位对这两位DeepMind核心人物的专访。 单TPU运算,更强的策略/价值网络 首先用数据说话。 AlphaGo Lee
运行于谷歌云,耗用50个TPU进行计算 每次搜索计算后续50步,计算速度为10000个位置/秒 2016年在首尔击败李世乭 作为对比,20年前击败卡斯帕罗夫的IBM深蓝,可以搜索计算一亿个位置。席尔瓦表示,AlphaGo并不需要搜索那么多位置。 AlphaGo Master
运行于谷歌云,但只用一个TPU机器 自学成才,AlphaGo自我对弈提高棋力 拥有更强大的策略/价值网络 由于应用了更高效的算法,这次和柯洁对战的AlphaGo Master,运算量只有上一代AlphaGo Lee的十分之一。所以单个TPU机器足以支撑。 AlphaGo团队的黄士杰博士也在朋友圈表示,最新的AlphaGo可以被称为单机版。而上一代AlphaGo使用了分布式计算。 在会后接受量子位采访时,席尔瓦证实此次AlphaGo仍然使用了第一代TPU,而不是前不久公布的第二代。 另外席尔瓦澄清说:“今年升级版的AlphaGo是在单机上运行的,它的物理服务器上部署了4个TPU”。 显然PPT有个小小的误导。 如果你想更进一步了解TPU,这里有几篇量子位的报道推荐: 《》 《》 《》 回到AlphaGo,可能你也注意到了,这个新版本的围棋AI有了更强大的策略/价值网络。下面围绕这一点继续解密。
△席尔瓦 AlphaGo的算法 为了讲清楚新的策略/价值网络强在哪里,还是应该首先介绍一下AlphaGo的算法如何构成。席尔瓦介绍,量子位搬运如下。 当初DeepMind团队,之所以选择围棋方向进行研究,一个重要的原因在于围棋是构建和理解运算的最佳试验台,而且围棋的复杂性远超国际象棋,这让电脑无法通过深蓝一样的暴力穷举方式破解围棋的奥秘。 击败李世乭的AlphaGo,核心是一个卷积神经网络。DeepMind团队希望AlphaGo最终能够理解围棋,形成全局观。席尔瓦表示,AlphaGo Lee由12层神经网络构成,而AlphaGo Master有40层神经网络。
这些神经网络进一步细分为两个功能网络: 策略网络(policy network) 价值网络(value network) 在这两个网络的训练中,使用了监督学习和强化学习两种方式。 首先基于人类的专家库数据,对策略网络的上百万参数进行调整。调整的目标,是让策略网络在相同的情况下,能够达到人类围棋高手的水平:下出同样的一步棋。 然后是强化学习,让人工智能进行自我博弈,这一训练结束后,就形成了价值网络,这被用于对未来的棋局输赢进行预测,在不同的下法中作出优劣判断。
通过策略网络,可以降低搜索的宽度,减少候选项,收缩复杂性。而且不会让AlphaGo下出疯狂不靠谱的步骤。
另一方面,通过价值网络减少深度,当AlphaGo计算到一定的深度,就会停止。AlphaGo不需要一直穷尽到最后。 (责任编辑:本港台直播) |