报码:【j2开奖】DeepMind团队：发明AlphaGo，不是为了战胜人类(2)_本港台直播_J2开奖直播

　　强化学习涉及到智能体和环境之间的互动。智能体（agent）通过观察，建立有关环境的模型，继而建立行动计划，确定最好的行动。在行动改变环境之后，重复“观察——行动”这一循环。因为在实际的操作环境中，智能体需要观察的环境往往存在噪音，因此智能体的合理行为是在慢慢强化接近设定目标的过程。

　　神经网络学习：这是实现深度学习的一种算法。它从信息处理角度对人脑神经元网络进行抽象，建立简单模型，通过输入、输出、节点关系和权重来表达逻辑策略，用以解决问题。

　　深度学习：深度学习的概念源于人工神经网络的研究，通过组合低层特征形成更加抽象的高层表示属性类别或特征，是实现人工智能的一种方式。

　　AlphaGo如何学习？

　　AlphaGo的学习策略可以总结为深度强化学习，同时结合了深度学习和强化学习。

　　为了应对围棋的巨大复杂性，AlphaGo的算法结合了监督学习和强化学习的优势。通过训练形成一个策略网络（policy network），将棋盘上的局势作为输入信息，并对所有可行的落子位置生成一个概率分布。这一部分，初代的AlphaGo借鉴了几百年的围棋棋谱，也就是有人类原生知识的介入，因而属于监督学习。

　　然后，AlphaGo通过强化学习训练出一个价值网络（value network），对自我对弈进行预测，，预测所有可行落子位置的结果，以 -1（对手的绝对胜利）到1（AlphaGo的绝对胜利）来表示。至此，AlphaGo能够在棋局中判断每步棋局未来的取胜概率分布。

　　上述是AlphaGo的训练过程，在实际的对弈过程中，获取棋局信息后，AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。在分配的搜索时间结束时，模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。

　　这样的计算量依然很大，AlphaGo通过两种方法来减少整体的神经网络计算量。

　　第一是通过策略网络减少穷举搜索的宽度。在每一次进行落子计算时，它只参考通过深度学习获得的人类落子选项。换句话说，人类爸爸不干，我也不干。

　　其二是，用价值网络减少穷举搜索的深度。它不追求那一子落步能够达到100%的最优，而是通过建立打分体系，选择风险更低而胜率更高的落子之处。

　　去年不是已经PK过李世乭了吗？为什么还要再来？

　　Demis在演讲中明确了AlphaGo的三个版本：AlphaGo Fan（2015年10月与樊麾对弈的版本）、AlphaGo Lee（2016年3月与李世乭对弈的版本）、AlphaGo Master（2017年1月网上Master以及此次对弈柯洁的版本）。

　　从棋力的对比来说，目前版本的AlphaGo能让李世石版本三个子，开奖，李世石版本的AlphaGo可以让樊麾版本三个子，樊麾版AlphaGo则能让zen/疯石围棋四个子。承让三子在高手对决中已经是极大的优势。

这是微博上柯洁对于“让三子”的解读

　　从算法的角度来说，新版本的AlphaGo不再需要外在的棋谱输入，在设定目标（AlphaGo的学习目标是取得尽可能大的获胜几率）之后，站在AlphaGo Lee版本的知识上，从自己的搜索中学习，依靠自我博弈来进行训练。这种自我学习的能力，未来将会更多的自我迭代。

　　新一代AlphaGo算法的优越性还体现在硬件配备方面，他在电能消耗和硬件调动的需求上都是李世乭版本AlphaGo的十分之一。2015年的AlphaGo Fan基于GPU运行，2016年的AlphaGo Lee是通过谷歌云上的50个TPU同时运作，每秒搜索50个棋步10000个位置，而今年的AlphaGo Master在谷歌云的单台机器4个TPU上运行，这一效率的提高十分惊人。不过David Silver很诚恳地表示，这是第一代TPU而不是上周在谷歌I／O大会上发布的第二代TPU（哎呀这发TPU的安利不够到家啊）

　　战胜了柯洁，阿老师的下一步是啥？

　　Demis把公司的愿景称为人工智能的“阿波罗计划”。他们希望为测试人工智能算法搭建一个有效的平台，最终目的是把这些算法应用到更多的领域中，为社会所服务。这也是AlphaGo从棋谱学习进化为自我学习的动力所在。

　　当今学界和业界解决问题面临的一个巨大挑战就是信息过载，以至于难以找到其中的规律和结构，从疾病诊断到气候变暖都是如此。

(责任编辑：本港台直播)