强化学习涉及到智能体和环境之间的互动。智能体(agent)通过观察,建立有关环境的模型,继而建立行动计划,确定最好的行动。在行动改变环境之后,重复“观察——行动”这一循环。因为在实际的操作环境中,智能体需要观察的环境往往存在噪音,因此智能体的合理行为是在慢慢强化接近设定目标的过程。 神经网络学习:这是实现深度学习的一种算法。它从信息处理角度对人脑神经元网络进行抽象,建立简单模型,通过输入、输出、节点关系和权重来表达逻辑策略,用以解决问题。 深度学习:深度学习的概念源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,是实现人工智能的一种方式。 AlphaGo如何学习? AlphaGo的学习策略可以总结为深度强化学习,同时结合了深度学习和强化学习。 为了应对围棋的巨大复杂性,AlphaGo的算法结合了监督学习和强化学习的优势。通过训练形成一个策略网络(policy network),将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。这一部分,初代的AlphaGo借鉴了几百年的围棋棋谱,也就是有人类原生知识的介入,因而属于监督学习。 然后,AlphaGo通过强化学习训练出一个价值网络(value network),对自我对弈进行预测,,预测所有可行落子位置的结果,以 -1(对手的绝对胜利)到1(AlphaGo的绝对胜利)来表示。至此,AlphaGo能够在棋局中判断每步棋局未来的取胜概率分布。 上述是AlphaGo的训练过程,在实际的对弈过程中,获取棋局信息后,AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。 这样的计算量依然很大,AlphaGo通过两种方法来减少整体的神经网络计算量。 第一是通过策略网络减少穷举搜索的宽度。在每一次进行落子计算时,它只参考通过深度学习获得的人类落子选项。换句话说,人类爸爸不干,我也不干。 其二是,用价值网络减少穷举搜索的深度。它不追求那一子落步能够达到100%的最优,而是通过建立打分体系,选择风险更低而胜率更高的落子之处。 去年不是已经PK过李世乭了吗?为什么还要再来? Demis在演讲中明确了AlphaGo的三个版本:AlphaGo Fan(2015年10月与樊麾对弈的版本)、AlphaGo Lee(2016年3月与李世乭对弈的版本)、AlphaGo Master(2017年1月网上Master以及此次对弈柯洁的版本)。 从棋力的对比来说,目前版本的AlphaGo能让李世石版本三个子,开奖,李世石版本的AlphaGo可以让樊麾版本三个子,樊麾版AlphaGo则能让zen/疯石围棋四个子。承让三子在高手对决中已经是极大的优势。 这是微博上柯洁对于“让三子”的解读 从算法的角度来说,新版本的AlphaGo不再需要外在的棋谱输入,在设定目标(AlphaGo的学习目标是取得尽可能大的获胜几率)之后,站在AlphaGo Lee版本的知识上,从自己的搜索中学习,依靠自我博弈来进行训练。这种自我学习的能力,未来将会更多的自我迭代。 新一代AlphaGo算法的优越性还体现在硬件配备方面,他在电能消耗和硬件调动的需求上都是李世乭版本AlphaGo的十分之一。2015年的AlphaGo Fan基于GPU运行,2016年的AlphaGo Lee是通过谷歌云上的50个TPU同时运作,每秒搜索50个棋步10000个位置,而今年的AlphaGo Master在谷歌云的单台机器4个TPU上运行,这一效率的提高十分惊人。不过David Silver很诚恳地表示,这是第一代TPU而不是上周在谷歌I/O大会上发布的第二代TPU(哎呀这发TPU的安利不够到家啊) 战胜了柯洁,阿老师的下一步是啥? Demis把公司的愿景称为人工智能的“阿波罗计划”。他们希望为测试人工智能算法搭建一个有效的平台,最终目的是把这些算法应用到更多的领域中,为社会所服务。这也是AlphaGo从棋谱学习进化为自我学习的动力所在。 当今学界和业界解决问题面临的一个巨大挑战就是信息过载,以至于难以找到其中的规律和结构,从疾病诊断到气候变暖都是如此。 (责任编辑:本港台直播) |