本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

我是黄士杰,AlphaGo的“人肉臂”(6)

时间:2017-06-01 00:22来源:报码现场 作者:118KJ 点击:
时间再过一年。2015年6月,AlphaGo拥有了更强大、分布式的搜索技术支持。阅读棋局的能力大幅提升,可以检索多种局面变化,并且找到最佳的应对方式。这

时间再过一年。2015年6月,AlphaGo拥有了更强大、分布式的搜索技术支持。阅读棋局的能力大幅提升,可以检索多种局面变化,并且找到最佳的应对方式。这个时候的AlphaGo,可以算出后续40-60步棋。 (量子位注:击败柯洁的最新版AlphaGo,也只算到50步棋就停止了。)

当时在相同的硬件条件下,AlphaGo对战另一个围棋程序Crazy Stone取得了70%的胜率,换句话说棋力领先了一个子。这个成就让整个DeepMind都很受鼓舞,哈萨比斯这时候对黄士杰说:“Aja,咱们要组一个团队,你不用再单打独斗了”。

从这时候开始,逐渐有更多的深度学习工程专家加入AlphaGo团队。黄士杰还为新加入的同事办了一个训练班,普及基本的围棋规则。

  

我是黄士杰,AlphaGo的“人肉臂”

黄士杰

2015年8月

与此同时,另一个重要的节点已在不远。两个月后,AlphaGo将掌握称霸围棋世界最关键的能力:形势判断。

“事实上,形势判断是围棋过程中最难、最令人头疼的环节,要进行准确的判断,必须具备精确测算双方目数的能力,同时还要兼备综观全局的大势观、挖掘潜在价值的分析能力和推理能力……要下出真正具有水平的围棋,形势判断十分必要。”

上面这段话,来自李昌镐。这位绰号“石佛”的韩国棋手,从1992年夺得第一个世界冠军开始,到2007年为止共获得18次个人冠军、13次团体冠军,开创了“李昌镐时代”。

AlphaGo如何获得形势判断的能力?

解决这个问题的人是席尔瓦。有天他对黄士杰说:“Aja,我有一个主意,我觉得可能会管用”。席尔瓦的主意后来被称为“价值网络”。当时黄士杰对这个主意非常怀疑,他回复说:“能管用么?咱们试试吧。”

价值网络也是一个卷积神经网络,输入是落子位置,输出0-1之间的数字,0代表对手胜利,1代表自己胜利,如果差不多就输出0.5。 (量子位注:Google最近公布的数字是-1~1,略有不同。)

总之,AlphaGo通过自我对弈,训练出价值网络,进而可以判断每一手棋背后代表的胜率。这就形成了形势判断的能力。

价值网络的出现,让AlphaGo棋力突飞猛进。与Crazy Stone的对弈中,AlphaGo胜率达到95%,也就是达到让两子的水平。

“当时AlphaGo已经可以碾压我了,我已经感觉到它的强大”,黄士杰回忆说。

2015年10月

也是8月,樊麾在参加欧洲围棋大会,回到法国的家中。他收到一封电子邮件,发件人是AlphaGo团队的Maddy。邮件内容非常简单:我们是一家伦敦的公司,希望邀请你来我们公司。也没有更多信息。

樊麾一度认为是垃圾邮件。但鬼使神差,他回了邮件说:“可以呀”。然后他们用Skype进行了在线沟通,席尔瓦当时也参加了,他们给樊麾讲述正在做有趣的项目,也讲述了自己是一家Google收购的公司。

随后樊麾上了DeepMind的官网,确定有这么一家公司,以及公司主页上还提到了围棋的字样。于是他下定决心过去看看。

双方第一次见面是9月底,当他确定自己要跟一个围棋程序对弈时,整个人一下就放松了,心说:“对付一个软件,还不分分钟的事儿”。樊麾当时甚至跟AlphaGo团队表示,他跟AlphaGo的下棋时间,只需要一个小时就够了。

当时黄士杰反复跟樊麾说AlphaGo很厉害。但樊麾根本听不进去。

  

我是黄士杰,AlphaGo的“人肉臂”

最后一局樊麾为自己的失误懊恼不已

2015年10月5日-9日。樊麾再赴伦敦,跟AlphaGo大战五回合,当时代替AlphaGo落子的就是黄士杰本人。结果可能大家都知道,樊麾全输了。“当时我的整个围棋世界都崩溃了。”樊麾说。

和樊麾的比赛结果,DeepMind一直到2016年初才对外发布。那时樊麾已经受聘成为AlphaGo的教练。公布赛果那天,樊麾关闭了手机。外出买菜的樊麾妻子给家里座机打电话:“千万不要上网看评论,说的可难听了。”

聂卫平当时评价说:“樊麾水平太低,给我们丢脸了。”

2016年

1月27日,《自然》杂志以封面论文的形式,介绍了DeepMind团队开发的AlphaGo,以及它击败了欧洲冠军樊麾的消息。

席尔瓦和黄士杰,并列作为这篇论文的第一作者。

在击败樊麾之后,AlphaGo的价值网络、策略网络和搜索能力都在继续增强,使用的硬件也从GPU换成TPU。TPU让AlphaGo的计算能力获得极大提升。

3月9日-15日,AlphaGo和李世石大战五场。最终AlphaGo以4:1取得胜利。当时坐在李世石对面,代替AlphaGo落子的还是黄士杰。

  

我是黄士杰,AlphaGo的“人肉臂”

左一为黄士杰,中间坐着的是樊麾

黄士杰第一次出现在全球观众的视线里。

黄士杰像机器人一样,出现在李世石和全球观众的视线里。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容