美国计算机协会会刊(CACM)9 月发表了一文,深度介绍了强化学习的运用及其与深度学习的比较。强化学习是机器学习的主要三种类型之一,atv,被应用在多种训练任务中。我们熟知的 AlphaGo 中就用到了大量的强化学习。「人工智能研学社· 强化学习组」将强化学习作为第一期学习内容,与大家分享有关深度学习的基本知识。本期教学内容推荐 Rich Suntton 教授关于强化学习的演讲视频——强化学习介绍及与函数近似结合的讨论。 一般而言,我们可以将机器学习分成三种类型:监督学习、无监督学习和强化学习。 监督学习是通过在带有标注的训练数据和输出对中寻找出需要学习到的模式;而无监督学习则是通过聚类分析来归纳没有标注的数据的模式;而强化学习则是通过代理对输入数据的不断反馈来接近一个问题的最佳解决方案。 强化学习(reinforcement learning)是受行为心理学启发的一个机器学习领域,其研究的是软件代理(agent)如何在一个环境(environment)中采取行动(action)以最大化我们想要的奖励(reward)。这是一个涵盖领域非常广的问题,也在博弈论、控制论、信息论、运筹学、基于模拟的优化、多代理系统、集群智能、统计学和遗传算法等许多学科领域得到了研究。在运筹学和控制论领域,强化学习方法所在的领域被称为近似动态规划(approximate dynamic programming)。这个问题曾在最优控制理论(theory of optimal control)领域得到过研究,尽管这个领域的大部分研究关注的是最优解决方案的存在以及它们的性质,而非学习或近似方面。在经济学和博弈论领域,强化学习可能能被用于解释有限理性(bounded rationality)下如何实现均衡(equilibrium)。 在机器学习领域,环境通常通常被阐释成一个马尔可夫决策过程(MDP),许多强化学习算法都是用了动态编程(dynamic programming)技术。传统技术和强化学习算法之间主要不同在于后者并不需要关于 MDP 的知识并且它们的目标是无法获取明确的方法的大型 MDP。 当然,强化学习并不是一个新东西。据了解,早在 1954 年,Minsky、Farley 和 Clark 等一些研究者就已经开始了对早期试错学习的研究。Minsky 在其博士论文《Theory of Neural-Analog Reinforcement Systems and Its Application to the Brain Model Problem》中探讨了强化学习模型,并且描述了一种模拟机(analog machine),这种模拟机由一种被他称为 SNARC(Stochastic Neural-Analog Reinforcement Calculator/随机神经模拟强化计算器)的组件构成。而 Farley 和 Clark 则描述了另一种设计用来进行试错学习的神经网络学习机器。 到了上世纪 60 年代,「强化(reinforcement)」和「强化学习(reinforcement learning)」就已经得到了很广泛的应用了(如,Waltz and Fu, 1965; Mendel, 1966; Fu, 1970; Mendel and McClaren, 1970)。其中特别要提的是 Minsky 1961 年的论文《Steps Toward Artificial Intelligence》,这篇论文集中地探讨了与强化学习相关的几个问题,包括信用分配问题(credit-assignment problem):对于可以涉及到的许多决策,该怎么为其中会成功的决策分配信用(credit)? 而强化学习从学术界走向大众认知的高潮还是在今年 3 月份的「AlphaGo vs. 李世石」的围棋世纪大战中。在这次举世瞩目的人机对决中,DeepMind 基于深度神经网络和强化学习的混合形态——「深度强化学习(deep reinforcement learning)」——所开发的围棋程序 AlphaGo 以 4:1 的巨大优势击败了世界顶级围棋大师李世石,掀起了一波鼓吹「机器超越人类」的狂潮。 在比赛后,开奖,阿尔伯塔大学计算机科学家、有现代强化学习教父之称的 Rich Sutton 表示强化学习和使用深度神经网络的深度学习这两种类型的学习可以很漂亮地互相补充。他解释说:「深度学习是有史以来最伟大的事情,但其很快就变得受限于数据了。如果我们能使用强化学习自动生成数据,即使这些数据的标注比人类的标注弱很多,但因为我们自动生成它们,我们就可以得到远远更多的数据,所以这两种技术可以很好地配合在一起。」 这里推荐一个 Rich Sutton 教授做的 tutorial 演讲《Introduction to Reinforcement Learning with Function Approximation(强化学习介绍及与函数近似结合的讨论)》。该演讲介绍如下: 强化学习是近三十年来机器学习与运筹学社区里发展的最优序贯决策(optimal sequential decision making)的理论和技术的主体,其分别在心理学和神经科学中都扮演重要角色。这个 tutorial 将会让你对基本的形式问题(马尔可夫决策过程)及其核心的解决方法(包括动态编程、蒙特卡罗方法和时间差分学习)有一个直观理解。这个 tutorial 将关注这些方法如何与参数函数近似(parametric function approximation,其中包括深度学习)进行结合以给大得无法用其它方式解决的问题找到好的近似解决方案。最后,我们还将简要介绍一些函数近似、资格痕迹(eligibility traces)和离策略学习(off-policy learning)上的最近进展。
相关补充学习资料: Joelle Pineau, Introduction to Reinforcement Learning, Deep Learning Summer School, 2016;
Michael L. Littman. Reinforcement learning improves behaviour from evaluative feedback. *Nature*, 521:445–451, May 2015. Learning Reinforcement Learning (with code,exercises and solutions) (责任编辑:本港台直播) |