报码:陈经：被围棋AI横扫后职业棋手该如何提高水平(2)_本港台直播_J2开奖直播

　　也有说Master可能是韩国研发的AI，这个可能性极低。围棋AI的研发是有轨迹的，象腾讯这样参照谷歌论文快速达到很高水平是可以理解的，但是也需要出来测试找到问题又回头想办法，不太可能闷头研发一出来就天下无敌。而谷歌经过多个版本的升级，确实有这个实力。2016年中，Deepmind在学术报告上就宣称后续版本能让V18四个子了，又取得了巨大进步。

　　Master达成50连胜后并未终止下棋，1月4号上午又继续开战。如果是论胜负，由于Master只选择30秒的快棋，对人类高手来说思考时间不足难以发挥最高水平。而Master固定地每8秒下一次，时间根本没用完，这是机器天然的优势。人类高手对战时经常选择20秒的读秒，30秒算网棋中时间长的了，但基本是练习。现在对Master的挑战已经带上了悲壮色彩，比正式比赛气氛还要激烈，野狐围棋的创始人古力九段声称第一个战胜Master的人奖金10万元。

　　由于Master的棋力极高，又不走人类棋手习惯的套路，很多局面都需要强度极大的思考，30秒人类高手实在是不够，会出不少漏洞。因此，如果还是30秒的棋局，Master的胜利会一直延续下去。有些读秒功夫强的棋手号称快慢棋水平差不多，但那是人与人在一些常见套路中对战。而且读秒功夫强是说后半盘收束，布局与前半盘如果出现新型，总是得停下来思考，10来分钟都算短的，半小时或1小时以上的长考也常见。

　　上图是1月3日柯洁与Master一个战斗告一段落。柯洁花掉了两次读秒（一共就三次30秒）才在左上角的战斗中顶住了。黑吃掉白四子目数不小，白也没有安定，应该至少是不落后。后面Master也选择了激烈的下法，柯洁只剩下一次30秒，应对不利输掉了。在新型的战斗中，其他棋手基本会被Master打垮。

　　因此，Master对人类最高水平棋手取得50连胜这个事实，不宜过于夸张。围棋AI的算法特性是，搜索空间是指数增长的，几十倍时长只是带来搜索深度增加几层，几秒钟与几十分钟的搜索可能棋力并无本质提升。增加时长更可能是用于MCTS的随机模拟终局数量，模拟质量能上升一些。达到基本时长保证足够的搜索深度与模拟的局面数量之后，再增加时间意义并不太大。

　　AlphaGo在分布式版本有1202个CPU和176个GPU，比“单机版”的48个CPU与8个GPU数多几十倍，但是对单机版的胜率70%并没有本质棋力提升。实战证明，Master和刑天思考几秒或者十几秒就有基本的水平了。如果能够战胜“秒下”的AI版本，战胜思考时间更长的版本没有本质的困难。

　　而人类高手群体在这次Master翻牌式的点名测试中全败，表现出了一些过去可能不太重视的弱点，值得好好总结分析。本文从围棋棋艺与“棋机结合”的角度进行技术解读。前面是新闻式的介绍，阅读后面的内容就需要对围棋技术与计算机算法有一定的了解。

　　AI杀手锏：价值网络和策略网络

　　人类高手下围棋的过程和机器下棋的手段是可以参照的。对于当前局面，人类先直觉产生一些候选点，这对应现在所有高水平围棋AI都采用的深度学习出来的“策略网络”。机器学习生成策略网络时，参考的就是人类高手的棋局，也有说法是AlphaGo从零开始不参考人类棋局，全部自我强化学习生成策略网络的。这次Master的招数绝大多数都是在人类的候选点范围内的，可以认为高手和Master的胜负不在于候选点的质量。

　　人类高手会利用有限的思考时间对不多一些选点进行几步推演，如果必走的直线着数多，有时能推到几十手以后。然后高手们会进行判断，如这个局面“简明”，就是自己优势可以接受，就这么下了，再狠些能给对手更狠打击的也不去想了。再如判断局面“复杂”看不清，李昌镐会非常独特地尽量避免这种局面，寻找虽然优势小但是自己能控制的处理办法。也有一些高手会主动将棋局导入复杂局面，发挥自己乱战的长处。

(责任编辑：本港台直播)

报码:陈经：被围棋AI横扫后 职业棋手该如何提高水平(2)

报码:陈经：被围棋AI横扫后职业棋手该如何提高水平(2)