但比赛刚一结束,在赛后的发布会上,当DT君向DeepMind团队提问:“AlphaGo是否已经不仅仅满足于单纯的胜负,而期待能够控制胜利的概率以及输赢的差距?” 哈萨比斯则说:“我们的确在研究如何通过多线路决策来扩大胜率,甚至于控制胜率,这是我们的一个探索方向。” 很显然,哈萨比斯的回答中无疑透露着一丝骄傲和狡黠,毕竟AlphaGo 是第一个击败人类职业围棋选手并战胜围棋世界冠军的程序,是围棋史上最具实力的选手之一。2016 年 3 月,在全世界超过一亿观众的关注下,AlphaGo 经过5局对弈,最终以 4 比 1 的总比分战胜了围棋世界冠军李世石,这场比赛成为了人工智能领域的一个重要里程碑。
图丨李世石鏖战AlphaGo 过去曾有专家预测人工智能需要十年的时间才有可能战胜人类职业选手,在这场比赛之后,AlphaGo 凭借其“充满创意而又机智”的下法,跻身围棋界最高职业称号——职业九段行列,成为历史上首个获得这一荣誉的非人类棋手。 前不久,AlphaGo的升级版本以"Master/Magister"的称谓与世界顶级的围棋选手进行了60场线上快棋对局,并取得了全胜的出色战绩。
那么,AlphaGo是怎么在被认为是传统游戏中对人工智能最具挑战性的项目——围棋中取得长胜战绩的呢? 原来,为了应对围棋的巨大复杂性,AlphaGo 采用了一种新颖的机器学习技术,结合了监督学习和强化学习的优势。通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。然后,训练出一个价值网络(value network)对自我对弈进行预测,以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准,atv,预测所有可行落子位置的结果。 这两个网络自身都十分强大,而 AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索(MCTS)中,实现了它真正的优势。最后,新版的AlphaGo 产生大量自我对弈棋局,为下一代版本提供了训练数据,此过程循环往复。 图丨价值网络和策略网络 在获取棋局信息后,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo的搜索算法就能在其计算能力之上加入近似人类的直觉判断。
这一次,AlphaGo也再一次体现了非常好的均衡感和大局。之所以这么说,是因为早在Alphago和李世石对局之前,人们普遍认为计算机长与计算,不擅判断大局。 但事实反复证明情况并非如此,无论是开局的时候创新与取势,还是中盘时的弃子与脱先,还是官子时的四处出击和在大量非常保守的位置上行棋(一般是AlphaGo认为自己胜局已定的时候为保胜利的选择)。这很有可能还是因为AlphaGo采取全局胜率预测的原因,并追求最大胜率概率所致。当面对70%赢10目和90%赢1目的选择时,计算机基本会选择赢1目。 此外,AlphaGo绝不是简单的模仿人类棋手,而是可以下出大量极富想象力和革命性创新的手段,反过来也影响了人类下棋的方式。早在今年1月10日,在中国名人战的两盘半决赛中,周睿羊九段和芈昱廷九段都放弃了传统的挂角开局,在守角后对对方的守角进行尖冲。这是此前AlphaGo在对战职业棋手时的常见下法。 图丨周睿羊九段和芈昱廷九段 (责任编辑:本港台直播) |