AlphaGo 是使用深度 CNN 技术、监督学习、强化学习和蒙特卡洛树搜索(MCTS)(Browne et al., 2012; Gelly et al., 2012) 打造的。AlphaGo 的工作分成了两个阶段:神经网络训练流程和 MCTS。其训练流程阶段包括根据专家的走子训练一个监督学习策略网络、快速部署策略、强化学习策略网络和强化学习价值网络。 13-21:强化学习的应用介绍 这几节介绍了强化学习的不同类型的应用,这里简单给出目录,详情请查阅原论文。 13 机器人学 14 口语对话系统 15 机器翻译 16 文本序列预测 17 神经架构设计 18 个性化网络服务 19 医疗保健 20 金融 21 音乐生成 22 未来工作 下面我们列出了上面的概述中没有讨论到的有趣的和/或重要的研究方向/论文,希望能够为有兴趣进一步研究它们的人提供信息入口。这也将是我们未来工作的一部分。 ? 理解机器学习(understanding deep learning), Daniely et al. (2016); Li et al. (2016b); Zhang et al. (2017) ? 探索(exploration)如:Stadie et al. (2015); Bellemare et al. (2016); Kulkarni et al. (2016); Osband et al. (2016); Nachum et al. (2017) ? 基于模型的学习(model-based learning)如:Oh et al. (2015); Gu et al. (2016b) ? 回溯算法(retrace algorithm), Munos et al. (2016) ? 预测(predictron), Silver et al. (2017) ? 分层强化学习(hierarchical RL)如:Kulkarni et al. (2016); Vezhnevets et al. (2016); Tessler et al. (2017); Florensa et al. (2017) ? 迁移/多任务强化学习(transfer/multitask RL)如: Maurer et al. (2016); Mo et al. (2016); Parisotto et al. (2016), NIPS 2015 Transfer and Multi-Task Learning: Trends and New Perspectives Workshop ? 零次/一次性学习(zero/one-shot learning)如:Vinyals et al. (2016); Lake et al. (2015); Johnson et al. (2016) ? 半监督强化学习(semi-supervised RL)如:Finn et al. (2017) ? deep symbolic RL, Garnelo et al. (2016) ?内在动机(intrinsic motivation)如:Stadie et al. (2015); Kulkarni et al. (2016); Oudeyer et al. (2016) ? 超参数学习(hyperparameter learning)如:Andrychowicz et al. (2016) ? 信息提取(information extraction)如:Narasimhan et al. (2016) ? 文本博弈(text games)如:He et al. (2016b); Narasimhan et al. (2015) ? 语言树结构学习(language tree-structure learning)如:Yogatama et al. (2017) ? 问答系统(question answering)如:Shen et al. (2016); Trischler et al. (2016) ? 大型动作空间(large action space)如:Dulac-Arnold et al. (2016); He et al. (2016c) ? 适应性规范化(adaptive normalization), van Hasselt et al. (2016b) ? 自动驾驶载具(self-driving vehicle)如:Bojarskietal.(2016),NIPS 2016 Workshop on Machine Learning for Intelligent Transportation Systems ? 智能电网(smart grid)如: Wen et al. (2015b) ? 通信网络(communication networks)如: Mestres et al. (2016) ? 物理实验(physics experiments)如: Denil et al. (2016) ? 深度概率编程(deep probabilistic programming), Tran et al. (2017) ? 深度博弈学习(deep learning games), Schuurmans and Zinkevich (2016) ? 程序学习(program learning)如:Reed and de Freitas (2016) ? 量子强化学习(quantum RL)如:Crawford et al. (2016), NIPS 2015 Workshop on Quantum Machine Learning 23 资源 我们列出了一些用于深度强化学习的资源,当然并不能做到完全。 23.1 书籍 ? Richard S. Sutton 和 Andrew G. Barto 所著的毫无疑问的和直观的强化学习书 (Sutton and Barto, 2017) ? 简明和理论性的《Algorithms for Reinforcement Learning》,作者:Csaba Szepesv´ari (Szepesv´ari, 2010) ? 一本关于近似动态编程的理论书籍,作者:Dimitri P.Bertsekas(Bertsekas, 2012) ? 一本面向运筹学的书《Approximate Dynamic Programming》,作者:WarrenB. Powell (Powell, 2011) ?《Deep Learning》,作者:IanGoodfellow, Yoshua Bengio 和 Aaron Courville (Goodfellow et al., 2016) 23.2 课程 ? David Silver, 强化学习(Reinforcement Learning), 2015, 幻灯片:goo.gl/UqaxlO,视频:goo.gl/7BVRkT ? Sergey Levine, John Schulman and Chelsea Finn, CS 294: 深度强化学习(Deep Reinforcement Learning)2017 年春季课程, ? Charles Isbell, Michael Littman and Pushkar Kolhe, Udacity: 机器学习:强化学习(Machine Learning: Reinforcement Learning), goo.gl/eyvLfg ? 李飞飞、 Andrej Karpathy 和 Justin Johnson, CS231n: 用于视觉识别的卷积神经网络(Convolutional Neural Networks for Visual Recognition), ? Richard Socher, CS224d: 用于自然语言处理的深度学习(Deep Learning for Natural Language Processing), ? Nando de Freitas, 深度学习课程(Deep Learning Lectures), https://www.youtube.com/user/ProfNandoDF 23.3 教程 ? David Silver, 深度强化学习(Deep Reinforcement Learning), ICML 2016 ? Pieter Abbeel 和 John Schulman, 通过策略优化的深度强化学习(Deep Reinforcement Learning Through Policy Optimization), NIPS 2016 ? 吴恩达,使用深度学习开发人工智能应用的基本要点(Nuts and Bolts of Building Applications using Deep Learning), NIPS 2016 ? John Schulman,深度强化学习研究的基本要点(The Nuts and Bolts of Deep Reinforcement Learning Research),深度强化学习研讨会, NIPS 2016 ? John Schulman, 深度强化学习(Deep Reinforcement Learning), Deep Learning School, 2016 ? Pieter Abbeel, Deep Reinforcement Learning, Deep Learning Summer School, 2016; abbeel deep reinforcement/ ? David Silver, Deep Reinforcement Learning, 第二届强化学习与决策多学科会议(RLDM), Edmonton 2015; silver reinforcement learning/ (责任编辑:本港台直播) |