日本棋手还是老套路,也不注意这些最新成果,还是按老的理解走吃了亏也不知道,经常就是“安乐死”。想要挣扎下出过分的招数,战斗力又不行,输得更快。 中韩高手们集体实战验证套路的办法,其实暗合了AlphaGo强化学习生成价值网络的方法。AlphaGo会进行几千万次的高质量“自我对局”,比高手们的对局加起来都多得多。人类高手们反复实战能判断几十个局面都不容易,AlphaGo的训练流水线却能生成几千万个局面,用于价值网络的训练。 价值网络是个和策略网络结构相似的多层神经网络,但是里面的系数不一样,它能对一个静态局面不搜索直接给出胜率,判断谁占优。有了策略网络与价值网络,AlphaGo不需要搜索都可以下得很好了,对每一招策略网络提供的选点,价值网络给出胜率判断,选择最好的一个选点下就可以了。2016年中Deepmind说AlphaGo棋力取得突破,就特别说了价值网络取得了巨大的进步。 价值网络是人类思考中没有的,在谷歌论文之前甚至没有这个概念。从学术角度来说,这可能是谷歌论文最大的贡献,深度学习生成策略网略并非Deepmind最先提出的。虽然对人类来说有点不自然,但价值网络正是人类可以学习的地方,职业高手们也许能从这个方向上取得棋力的突破,但需要科学的方法。 人类能通过多次实战、打谱,在脑中形成直觉,看一眼局面就能根据棋形产生一些靠谱的候选点。对人类直觉方便之处在于,候选点有“局部性”,人只要看局部就能有“关键”点的直觉。有时一些照顾全局的棋招会被夸张地称为“耳赤妙手”。人类自然倾向就是局部观察,眼睛看画面时自然会聚焦在一小块地方,棋手思维也是如此。高手要逆着这个直觉观察全局,多找一些候选点。范西屏是中国古代水平最高的棋手之一,李步青对其它人这样形容他的棋艺:“君等于弈只一面,余尚有两面,若西屏先生则四面受敌者也”,这是说范西屏全局观念特别强。 但这种全局观念毕竟难于描述,成了高手中只可意会不可言传的“大局观”。人类对局部的精确描述却不断取得进展,局部定式发展出成千上万个,甚至有《定式大全》这样的书。局部数目的手段与技术也不断发展,目数价值精确到几分之一。大局观方面却一直没有太大的进展。甚至一些90后年青高手认为,布局不要太看重,花时间想也想不出什么东西,随便搞搞套路或者下一些过得去的着手应付下,大量时间要留在中后盘决战。 从实战来说,这也确实是胜率较高的选择,你脱离套路未必占优,就算花大量时间琢磨布局选点便宜了两三目,后面时间不够了随时崩盘,因为人家后面肯定会来“搅”。孟泰龄主要的获胜方式,就是利用一些年青棋手忽视布局这个特点,他精心研究布局,多次在局面判断中取得优势,后面拼了老命把优势守下来。但是由于年青高手们冲击实在太厉害,往往顶不住,泰哥也无法取得战绩的突破,只能维持住一流高手的地位。 职业棋手面临着训练内容与方法的革命 职业棋手们水平取得突破,也和一些围棋道场的严格军事化训练手段分不开。冲段小棋手们做海量的死活题,认真进行大量的对局,严谨计算的态度与人脑中“策略网络”的质量都不错。死活题有上千年的历史积累,多年的实战提供了大量素材,还有不少高手喜欢创作死活题。日本的《发阳论》吸收了中国古代棋书中不少素材,韩国《天龙图》是实战积累。死活题素材不缺,有道场、有网络,高水平实战锻炼的机会不缺,套路相关的信息流传也快,职业棋手群体水平迅速进步。 但是,各道场并没有多少“局面判断”的题目积累,这是一个非常严重的技术性缺失。如果棋手群体有意识地在这方面努力,是有办法可想的。可以集体讨论一些局面,取得一致,拿出来做为习题或者“训练样本”。也可以在网络上组织实战,主动对一些局面统计胜率,获得宝贵的数据,达成一致。可以积累大量网站与实战高水平棋谱,对一些同类开局进行大数据分析。这样的分析程序已经有了,但主要是正式比赛棋谱不够多,如果能和对弈网站联手,增加海量棋谱,局面统计分析就更为精确。 现在有了高水平围棋AI,就更为方便了。高水平围棋AI,以后一定会普及。如果放开AI数据后门,就能看到局面的具体胜率,甚至价值网络对局面的估值。甚至也可以把训练好的价值网络单独抽出来做成小程序帮助分析。这样,应该可以象死活题一样积累出海量的局面判断素材。和以前不一样的是,这些局面判断题有参考答案,或更为权威的答案,并不仅仅是思考题。 (责任编辑:本港台直播) |