上面这段话,来自李昌镐。这位绰号“石佛”的韩国棋手,从1992年夺得第一个世界冠军开始,到2007年为止共获得18次个人冠军、13次团体冠军,开创了“李昌镐时代”。 AlphaGo如何获得形势判断的能力? 解决这个问题的人是席尔瓦。有天他对黄士杰说:“Aja,我有一个主意,我觉得可能会管用”。席尔瓦的主意后来被称为“价值网络”。当时黄士杰对这个主意非常怀疑,他回复说:“能管用么?咱们试试吧。” 价值网络也是一个卷积神经网络,输入是落子位置,输出0-1之间的数字,0代表对手胜利,1代表自己胜利,如果差不多就输出0.5。 (量子位注:Google最近公布的数字是-1~1,略有不同。) 总之,AlphaGo通过自我对弈,训练出价值网络,进而可以判断每一手棋背后代表的胜率。这就形成了形势判断的能力。 价值网络的出现,让AlphaGo棋力突飞猛进。与Crazy Stone的对弈中,AlphaGo胜率达到95%,也就是达到让两子的水平。 “当时AlphaGo已经可以碾压我了,我已经感觉到它的强大”,黄士杰回忆说。 2015年10月 也是8月,樊麾在参加欧洲围棋大会,回到法国的家中。他收到一封电子邮件,发件人是AlphaGo团队的Maddy。邮件内容非常简单:我们是一家伦敦的公司,直播,希望邀请你来我们公司。也没有更多信息。 樊麾一度认为是垃圾邮件。但鬼使神差,他回了邮件说:“可以呀”。然后他们用Skype进行了在线沟通,席尔瓦当时也参加了,他们给樊麾讲述正在做有趣的项目,也讲述了自己是一家Google收购的公司。 随后樊麾上了DeepMind的官网,确定有这么一家公司,以及公司主页上还提到了围棋的字样。于是他下定决心过去看看。 双方第一次见面是9月底,当他确定自己要跟一个围棋程序对弈时,整个人一下就放松了,心说:“对付一个软件,还不分分钟的事儿”。樊麾当时甚至跟AlphaGo团队表示,他跟AlphaGo的下棋时间,只需要一个小时就够了。 当时黄士杰反复跟樊麾说AlphaGo很厉害。但樊麾根本听不进去。
最后一局樊麾为自己的失误懊恼不已 2015年10月5日-9日。樊麾再赴伦敦,跟AlphaGo大战五回合,当时代替AlphaGo落子的就是黄士杰本人。结果可能大家都知道,樊麾全输了。“当时我的整个围棋世界都崩溃了。”樊麾说。 和樊麾的比赛结果,DeepMind一直到2016年初才对外发布。那时樊麾已经受聘成为AlphaGo的教练。公布赛果那天,樊麾关闭了手机。外出买菜的樊麾妻子给家里座机打电话:“千万不要上网看评论,说的可难听了。” 聂卫平当时评价说:“樊麾水平太低,给我们丢脸了。” 2016年 1月27日,《自然》杂志以封面论文的形式,介绍了DeepMind团队开发的AlphaGo,以及它击败了欧洲冠军樊麾的消息。 席尔瓦和黄士杰,并列作为这篇论文的第一作者。 在击败樊麾之后,AlphaGo的价值网络、策略网络和搜索能力都在继续增强,使用的硬件也从GPU换成TPU。TPU让AlphaGo的计算能力获得极大提升。 3月9日-15日,AlphaGo和李世石大战五场。最终AlphaGo以4:1取得胜利。当时坐在李世石对面,代替AlphaGo落子的还是黄士杰。
左一为黄士杰,中间坐着的是樊麾 黄士杰第一次出现在全球观众的视线里。 黄士杰像机器人一样,出现在李世石和全球观众的视线里。 李世石后来回忆说:“黄士杰是此次人机对弈中最辛苦受累的人,他担心我会受到影响,对弈期间,他一直面无表情,甚至连一次洗手间都没去过”。 一次对弈,最长可能耗时近6个小时。在与李世石的无论对弈中,黄士杰只喝过一口水。黄士杰的这种表现,甚至走进了对手的梦里。 有次酒店的早餐送来后,李世乭的妻子唤醒他起来吃早饭。没想到李世石竟然回答说:“嗯,我要和Aja一起吃。” 与李世石的比赛之后,黄士杰有过短暂的休假,几乎没有采访报道留下。一位名叫Fred Zhou的中国记者告诉量子位,在韩国比赛期间,黄士杰并不被允许接受采访,据说是因为他习惯于表达的毫无保留。 再后来DeepMind放出了棋谱,AlphaGo继续新的成长。这年11月18日,黄士杰总结说:“最近我的一个心得是,人的进步最多是用跑的,电脑的进步却是用飞的”。 在这一年即将结束的时候,AlphaGo又回来了。2016年12月30日,Science News发布了一条推特,基本跟内文无关,推文如下:AlphaGo: “Now, I am the master.” 2017年 (责任编辑:本港台直播) |