本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)

时间:2017-05-24 23:59来源:天下彩论坛 作者:本港台直播 点击:
舒石 唐旭 发自 东瑶村 量子位 报道 | 公众号 QbitAI 到底是谁击败了柯洁? 答案似乎显而易见。但量子位之所以问这个问题,是因为如今击败柯洁的AlphaGo,与去年击败李世乭的AlphaGo,

  舒石 唐旭 发自 东瑶村

  量子位 报道 | 公众号 QbitAI

  

码报:【j2开奖】新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)

  到底是谁击败了柯洁?

  答案似乎显而易见。但量子位之所以问这个问题,是因为如今击败柯洁的AlphaGo,与去年击败李世乭的AlphaGo,有着本质的区别。

  DeepMind把AlphaGo粗略分成几个版本:

第一代,是击败樊麾的AlphaGo Fan。与Zen/Crazy Stone等之前的围棋软件相比,棋力要高出4子。

第二代,是击败李世乭的AlphaGo Lee。与上一代相比,棋力高出3子。

第三代,是柯洁如今的对手,也是年初60连胜的:AlphaGo Master。相比于击败李世乭的版本,棋力又再次提升3子。

  需要强调的是,直播,AlphaGo Lee和AlphaGo Master有着根本不同。不同在哪里,今天DeepMind创始人兼CEO哈萨比斯(Demis Hassabis),AlphaGo团队负责人席尔瓦(Dave Silver)联手首度揭开新版AlphaGo的秘密。

  量子位这一篇推送的内容,整理自哈萨比斯、席尔瓦今日上午的主题演讲,还有今日午间量子位对这两位DeepMind核心人物的专访。

  单TPU运算,强的策略/价值网络

  首先用数据说话。

  AlphaGo Lee

  

码报:【j2开奖】新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)

运行于谷歌云,耗用50个TPU进行计算

每次搜索计算后续50步,计算速度为10000个位置/秒

2016年在首尔击败李世乭

  作为对比,20年前击败卡斯帕罗夫的IBM深蓝,可以搜索计算一亿个位置。席尔瓦表示,AlphaGo并不需要搜索那么多位置。

  AlphaGo Master

  

码报:【j2开奖】新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)

运行于谷歌云,但只用一个TPU机器

自学成才,AlphaGo自我对弈提高棋力

拥有强大的策略/价值网络

  由于应用了更高效的算法,这次和柯洁对战的AlphaGo Master,运算量只有上一代AlphaGo Lee的十分之一。所以单个TPU机器足以支撑。

  AlphaGo团队的黄士杰博士也在朋友圈表示,最新的AlphaGo可以被称为单机版。而上一代AlphaGo使用了分布式计算。

  在会后接受量子位采访时,席尔瓦证实此次AlphaGo仍然使用了第一代TPU,而不是前不久公布的第二代。

  另外席尔瓦澄清说:“今年升级版的AlphaGo是在单机上运行的,它的物理服务器上部署了4个TPU”。

  显然PPT有个小小的误导。

  如果你想更进一步了解TPU,这里有几篇量子位的报道推荐:

《》

《》

《》

  回到AlphaGo,可能你也注意到了,这个新版本的围棋AI有了更强大的策略/价值网络。下面围绕这一点继续解密。

  

码报:【j2开奖】新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)

  席尔瓦 AlphaGo的算法

  为了讲清楚新的策略/价值网络强在哪里,还是应该首先介绍一下AlphaGo的算法如何构成。席尔瓦介绍,量子位搬运如下。

  当初DeepMind团队,之所以选择围棋方向进行研究,一个重要的原因在于围棋是构建和理解运算的最佳试验台,而且围棋的复杂性远超国际象棋,这让电脑无法通过深蓝一样的暴力穷举方式破解围棋的奥秘。

  击败李世乭的AlphaGo,核心是一个卷积神经网络。DeepMind团队希望AlphaGo最终能够理解围棋,形成全局观。席尔瓦表示,AlphaGo Lee由12层神经网络构成,而AlphaGo Master有40层神经网络。

  

码报:【j2开奖】新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)

  这些神经网络进一步细分为两个功能网络:

策略网络(policy network)

价值网络(value network)

  在这两个网络的训练中,使用了监督学习和强化学习两种方式。

  首先基于人类的专家库数据,对策略网络的上百万参数进行调整。调整的目标,是让策略网络在相同的情况下,能够达到人类围棋高手的水平:下出同样的一步棋。

  然后是强化学习,让人工智能进行自我博弈,这一训练结束后,就形成了价值网络,这被用于对未来的棋局输赢进行预测,在不同的下法中作出优劣判断。

  

码报:【j2开奖】新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)

  通过策略网络,可以降低搜索的宽度,减少候选项,收缩复杂性。而且不会让AlphaGo下出疯狂不靠谱的步骤。

  

码报:【j2开奖】新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)

  另一方面,通过价值网络减少深度,当AlphaGo计算到一定的深度,就会停止。AlphaGo不需要一直穷尽到最后。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容