报码:【j2开奖】专题 | 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）(7)_本港台直播_J2开奖直播

价值函数是强化学习的核心，比如在深度 Q 网络及其许多扩展中。策略优化方法已经在许多不同的应用领域得到了关注，比如：机器人、神经架构设计、口语对话系统、机器翻译、注意（attention）和学习去学习（learning to learn）等等，不能胜举。新的学习机制也在涌现，比如：使用无监督/半监督/迁移学习来提升学习的质量和速度，而且更多的新机制还将涌现。这是强化学习的复兴（Krakovsky, 2016）。事实上，即使是在「人工智能的冬天」，强化学习和深度学习也在不断发展进步。

考虑学习模型的问题是非常关键的，这些问题包括稳定性、收敛性、准确度、数据效率、可扩展性、速度、简洁性、可解释性、稳健性和安全性等。调查评论/批评也是很重要的，这些批评可能来自认知科学领域，涉及到直观物理学、直观心理学、因果模型、组合性、学习去学习、实时运行（Lake et al., 2016）等问题；这能够帮助我们打造出更强大的人工智能。也请参考 Peter Norvig 的观点 goo.gl/obvmVB.

在这第三波人工智能的大潮下，深度学习将会有更为深度的影响，正如我们已经见证的许多成就一样。强化学习作为一种更为通用的学习和决策范式，将会给深度学习、机器学习和广义上的人工智能带来深远的影响。这里提一件有趣的故事，当 Rich Sutton 教授 2003 年在阿尔伯塔大学开始工作时，他将他的实验室命名为了 RLAI：Reinforcement Learning and Arti?cial Intelligence（强化学习与人工智能实验室）。

致谢

感谢来自Baochun Bai, 胡峻玲（Junling Hu）, Ruitong Huang, Lihong Li, Dale Schuurmans, David Silver, Rich Sutton, Csaba Szepesvari, Yi Wan 和 Qing Yu的建议。任何剩余错误为本文作者所出。本文同时受益于各类研讨会/网上讨论，特别是2016年4月在MIT举行的AlphaGo研讨会，以及2016年10月份『机器之心』北美系列巡游活动中在多伦多大学、McGill大学和阿尔伯塔大学举办的深度（强化）学习研讨会。另外也要感谢2016年11月关于David Silver幻灯片的网上研讨会，以及几个微信群组中的讨论。

参考文献（略）

　　论文链接：https://arxiv.org/abs/1701.07274

©本文为机器之心编译，转载请联系本公众号获得授权。

　　?------------------------------------------------

加入机器之心（全职记者/实习生）：[email protected]

投稿或寻求报道：[email protected]

广告&商务合作：[email protected]

(责任编辑：本港台直播)