在过去的几天里,全中国乃至全世界都把目光投向了乌镇。在这里,一场没有硝烟、没有剑影的战斗在古老的棋盘上无声地进行。 AlphaGo对阵柯洁的“人机大战第二季”,似乎提前失去了当年对阵李世石的悬念,却更加引人深思。 一年时间,为何功力大涨? 一年前,AlphaGo以4比1战胜世界围棋冠军李世石,18岁的中国棋手柯洁九段在微博上放言:“就算阿法狗战胜了李世石,atv,但它赢不了我。”随后,这位8次击败李世石、3次获得世界冠军的“当今围棋第一人”,迅速为不懂棋的吃瓜群众所熟知。也许从那时开始,人们都已经在期待如今的这一场大战。 但是,一年时间过去,面对曾化名Master横扫人类60盘、升级2.0版的AlphaGo,柯洁也收起了当年的张扬。在乌镇围棋峰会的新闻发布会上,他说:“作为一个现代棋手,每天面对胜负,但输棋之痛苦外界无法想象,只有胜负才是唯一真谛,我会不惜一切代价追求胜利,真的我会拼了。” AlphaGo为什么功力大涨?关键就在于“强化学习”,即通过与环境交互获得最优解的过程。与以前棋类AI常用的穷举法等“笨办法”不同,研究人员先让AlphaGo学会评价棋路的优劣,然后再通过不断与自己对弈进行强化学习,让AlphaGo“参悟”下棋的感觉。而到了比赛现场,AlphaGo就会根据此前积累的经验,动态地寻找最优方法。 在AlphaGo与柯洁对弈前,科研人员为它输入了至少三千万种棋局,而它的“左右互搏”也超过了一百万次。每一次的对弈都会不断提高它的准确率,这使AlphaGo“功力暴涨”,训练量和进步速度都远超过身为人类的柯洁。 AlphaGo通过两个不同神经网络“大脑”合作:监督学习的策略网络与价值网络 一场峰会,赢遍中国高手 AlphaGo与柯洁的对决开始前,atv,其实几乎所有人对结果都已经心知肚明。 第一盘,柯洁执黑半目负于AlphaGo。第二盘,柯洁执白中盘投子认负,但这场比赛获得了AlphaGo团队负责人哈萨比斯的肯定:从未看到过AlphaGo与人类棋手比赛能够这样势均力敌。柯洁本人也表示,自己一度感觉接近胜利,以至于坐在棋盘前的他捂住了胸口,“想让心脏跳得慢一点”。第三盘,柯洁试图继续上一盘的激战,可惜从序盘阶段便陷入AlphaGo的控制。赛后,柯洁哽咽道:“我看到了自己和AlphaGo的差距有多大,这是我永远都追不上的距离。我会继续改变自己,而AlphaGo将会改变世界。” 在这次乌镇围棋峰会上,令人瞩目的“人机大战”可不止一场。在连笑+AlphaGo对阵古力+AlphaGo的“人狗双打”中,出现了一个有趣的小插曲:战至中盘,古力的AlphaGo搭档请求投子认输,但古力并不服输,而是选择继续比赛,结果这位AlphaGo队友居然开始瞎走,直到古力无奈地认输……网友纷纷表示,这是“猪队友”啊! 最后,五位围棋世界冠军周睿羊、时越、唐韦星、芈昱廷、陈耀烨组成的豪华中国队也在对AlphaGo的“团队赛”中落败。但投子认输前,几位棋手下出了一手本不成立的“骗招”,想看看AlphaGo会作何反应,没想到AlphaGo竟然上当了,棋手们不约而同捂脸大笑,成为本次人机大战最经典的表情。 一次退隐,期待更多应用 独孤求败的AlphaGo将何去何从?DeepMind首席执行官哈克比斯宣布: 接下来,AlphaGo将会与柯洁对这三盘对局的每一个重要节点进行分析,展现Alphago在下棋过程中的变化,并将这一视频分享给全球开发者及围棋爱好者。此外,团队还会公布50盘AlphaGo进行自我对战的棋局。最后,DeepMind将会在下半年发表一篇新的论文,公开Master的一些内部数据及技术细节,让更多开发者打造自己的AlphaGo。 中国围棋协会授予AlphaGo职业九段 除了围棋,强化学习也正在越来越多的领域中得到应用。这一方法尤其适合自动驾驶汽车,因为驾驶的过程是一种“良好的决策序列”。未来,宝马和英特尔将合作测试自动驾驶的软件。谷歌、优步等公司也会有研究团队用强化学习的方法训练自动驾驶汽车。 (责任编辑:本港台直播) |