本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

我是黄士杰,AlphaGo的“人肉臂”(5)

时间:2017-06-01 00:22来源:报码现场 作者:118KJ 点击:
2003年,黄士杰硕士毕业。毕业论文:《电脑围棋打劫的策略》。在学校当了一年的研究助理后,2004年,黄士杰再次考入师大资讯工程研究所博士班。 20

2003年,黄士杰硕士毕业。毕业论文:《电脑围棋打劫的策略》。在学校当了一年的研究助理后,2004年,黄士杰再次考入师大资讯工程研究所博士班。

2007年

这年2月28日,台湾师范大学的学生组织了一次围棋同好聚会。随后这个定期的聚会,发展为师大围棋社,黄士杰是其中年纪最大的学长,并担任首届社长。3月,黄士杰拟定了首次对战分组表,比赛地点在男生宿舍地下餐厅。

  

我是黄士杰,AlphaGo的“人肉臂”

左一是师大就读期间的黄士杰

同年5月,黄士杰带领师大围棋社参加台湾大专杯围棋赛。曾经有台湾媒体报道称黄士杰曾经带领师大围棋社在这项比赛中夺冠。不过量子位仔细查找后发现,师范大学仅在2009年获得过第五名,其他年份均榜上无名。

同一赛事15个级别的个人战中,前八名也没有看到黄士杰的名字。2004-2011年间,黄士杰一直博士在读,而他的棋力水平是业余六段。

虽然没能在人类的围棋赛中获得瞩目成绩,但黄士杰在另一条路上继续进发。他的一个主要战场是国际计算机游戏协会(ICGA)组织的电脑棋类程序竞赛。顾名思义,来自全世界的电脑高手,在象棋、围棋等领域展开斗法。

在这个比赛中,黄士杰的名字写作:Shih-Chieh Huang。

2006年,黄士杰独自开发的第一款围棋程序AjaGo,获得围棋大赛第11名;他参与的中国象棋程序Elephant(大象),获得大赛的铜牌。此后几年,黄士杰开发的围棋程序参赛成绩一直没有亮眼的成绩。

2010年

这一年9月,哈萨比斯(Demis Hassabis)等三人在英国伦敦合伙成立了一家新公司,名字叫做DeepMind。

  

我是黄士杰,AlphaGo的“人肉臂”

2010年黄士杰开发的Erica击败Zen获得冠军

同一个9月,黄士杰在Rémi Coulom的指导下,开发出围棋程序Erica,并在围棋比赛中击败日本的Zen,获得当年的冠军。这在当时可算了不起的成就。Rémi Coulom是另一个围棋程序Crazy Stone的作者。

因为Erica的夺冠,让黄士杰在参加博士毕业答辩前,就已经获邀前往加拿大阿尔伯塔大学攻读博士后,并担任电脑围棋程序的研究员。他的博士论文题目是:《应用于电脑围棋之蒙地卡罗树搜寻法的新启发式演算法》。

2011年6月,黄士杰博士答辩通过,7月1日,黄士杰飞赴加拿大。

此时,他后来会遇到的席尔瓦(David Silver),早于一年前从阿尔伯塔大学离开,前往伦敦大学学院。在伦敦,席尔瓦会遇到哈萨比斯。

到阿尔伯塔大学后,黄士杰继续研究蒙特卡洛树搜索。他还浅度参与了Fuego的开发,这个团队里还有Markus Enzenberger、Martin Müller等人,这个团队参加了当年的ICGA大赛,不过可谓一无所获。

当年11月,夺冠的还是Zen。

时间再过一年,2012年11月,黄士杰也来到伦敦,加入DeepMind担任高级研究员。至少从这个时候开始,黄士杰开始用新的英文名:Aja Huang。

2014年初

加入DeepMind的两年里,黄士杰似乎没有重大的研究成果。从论文发布量上看,也是如此,2014年前几乎搜不到他发的论文。

然而事情很快有了转机。

2014年1月26日,Google宣布5亿美元收购DeepMind,拿下这家日后会大放异彩的初创公司。

  

我是黄士杰,AlphaGo的“人肉臂”

左为哈萨比斯,右为席尔瓦

有一天,席尔瓦走到黄士杰面前说:“Aja,我们准备启动一个围棋项目。最开始只有你和我”。2014年2月,AlphaGo项目正式启动,团队三个人:哈萨比斯、席尔瓦、黄士杰。哈萨比斯是整个公司的老板,席尔瓦是黄士杰的经理。所以,这个团队真正干活的只有黄士杰一个人。

AlphaGo项目,就是想搞出一个强大的围棋程序。而且从一开始,这个团队就决定不会尝试所有的方法,他们只有一个方向:沿着深度学习和强化学习的方向探索。也是从一开始,他们就知道这是一个非常困难的挑战。

哈萨比斯说,希望通过AlphaGo的研究,让机器获得直觉和创造力。

而更现实的困难是,与国际象棋相比,围棋的计算空间巨大,而且电脑无法理解一盘棋到底谁获得了胜利。

但他们就这样出发了。

2014年6月-2015年6月

这年夏天,AlphaGo的第一个重要武器出现了。在卷积神经网络的帮助下,AlphaGo学习了很多人类高手的棋谱,能在3毫秒内做出比肩人类的下棋直觉。后来黄士杰给这个武器命名:“策略网络”,并且持续进行训练优化。

这个时候,AlphaGo的训练还是在GPU上完成的。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容