价值函数是强化学习的核心,比如在深度 Q 网络及其许多扩展中。策略优化方法已经在许多不同的应用领域得到了关注,比如:机器人、神经架构设计、口语对话系统、机器翻译、注意(attention)和学习去学习(learning to learn)等等,不能胜举。新的学习机制也在涌现,比如:使用无监督/半监督/迁移学习来提升学习的质量和速度,而且更多的新机制还将涌现。这是强化学习的复兴(Krakovsky, 2016)。事实上,即使是在「人工智能的冬天」,强化学习和深度学习也在不断发展进步。 考虑学习模型的问题是非常关键的,这些问题包括稳定性、收敛性、准确度、数据效率、可扩展性、速度、简洁性、可解释性、稳健性和安全性等。调查评论/批评也是很重要的,这些批评可能来自认知科学领域,涉及到直观物理学、直观心理学、因果模型、组合性、学习去学习、实时运行(Lake et al., 2016)等问题;这能够帮助我们打造出更强大的人工智能。也请参考 Peter Norvig 的观点 goo.gl/obvmVB. 在这第三波人工智能的大潮下,深度学习将会有更为深度的影响,正如我们已经见证的许多成就一样。强化学习作为一种更为通用的学习和决策范式,将会给深度学习、机器学习和广义上的人工智能带来深远的影响。这里提一件有趣的故事,当 Rich Sutton 教授 2003 年在阿尔伯塔大学开始工作时,他将他的实验室命名为了 RLAI:Reinforcement Learning and Arti?cial Intelligence(强化学习与人工智能实验室)。 致谢 感谢来自Baochun Bai, 胡峻玲(Junling Hu), Ruitong Huang, Lihong Li, Dale Schuurmans, David Silver, Rich Sutton, Csaba Szepesvari, Yi Wan 和 Qing Yu的建议。任何剩余错误为本文作者所出。本文同时受益于各类研讨会/网上讨论,特别是2016年4月在MIT举行的AlphaGo研讨会,以及2016年10月份『机器之心』北美系列巡游活动中在多伦多大学、McGill大学和阿尔伯塔大学举办的深度(强化)学习研讨会。另外也要感谢2016年11月关于David Silver幻灯片的网上研讨会,以及几个微信群组中的讨论。 参考文献(略) 论文链接:https://arxiv.org/abs/1701.07274 ©本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |