本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】专题 | 深度强化学习综述:从AlphaGo背后的力量到学习资源分享(附论文)(6)

时间:2017-01-28 18:03来源:本港台直播 作者:开奖直播现场 点击:
? Rich Sutton, Introduction to Reinforcement Learning with Function Approximation, https://www.microsoft.com/en-us/research/video/tutorial-introduction-to-reinforcementlearning-with-function-approxima

? Rich Sutton, Introduction to Reinforcement Learning with Function Approximation, https://www.microsoft.com/en-us/research/video/tutorial-introduction-to-reinforcementlearning-with-function-approximation/

? Joelle Pineau, 强化学习入门(Introduction to Reinforcement Learning), Deep Learning Summer School, 2016; pineau reinforcement learning/

? Deep Learning Summer School, 2016, 2015

23.4 会议、期刊和研讨会

? NIPS: 神经信息处理系统

? ICML: 国际机器学习大会

? ICLR: 国际学习表征大会

? RLDM: 强化学习与决策多学科会议

? AAAI, IJCAI, ACL, EMNLP, SIGDIAL, ICRA, IROS, KDD, SIGIR, CVPR, 等

? Science Robotics, JMLR, MLJ, AIJ, JAIR, PAMI, 等

? Nature May 2015, Science July 2015, 搜索关于机器学习/人工智能的论文

? Deep Reinforcement Learning Workshop, NIPS 2016, 2015; IJCAI 2016

? Deep Learning Workshop, ICML 2016

23.5 博客

? Andrej Karpathy, karpathy.github.io, esp. goo.gl/1hkKrb

? Denny Britz, , 尤其是 goo.gl/MyrwDC

? Junling Hu, Reinforcement learning explained -learning to act based on long-term payoffs

? 邓,深度强化学习可以如何帮助打造聊天机器人(How deep reinforcement learning can help chatbots)

? Christopher Olah, colah.github.io

在这个信息/社交网络时代,信息已经超过了我们的极限,比如来自 Twitter、Google+、微信、arXiv 等的信息。有效地筛选最佳信息的技巧变得十分关键。

24 讨论

这是深度强化学习最好的时代,也是深度强化学习最坏的时代,而原因却是一样的:它以惊人的速度在发展。我们已经看到了突破、激动人心的新方法和应用,并且还有望看到更多和见证更快的发展。因此,不管是在深度还是在广度上,这篇概述都是不完整的。但是,我们也尽量总结这一惊人领域的重要成就并讨论其潜在的方向和应用。

深度强化学习这一领域的进步是有目共睹的,在不到两年时间内,我们就看到 Nature 上发表了三篇使用了深度强化学习的论文:深度 Q 网络(deep Q-network)(Mnih et al., 2015)、AlphaGo (Silver et al., 2016) 和可微分神经计算机 (Graves et al., 2016);我们也已经见证了许多深度 Q 网络上的扩展、改进和应用。注意和记忆机制(Graves et al., 2016)也得到了很大的关注。

2016 年,使用了深度强化学习的全新架构和应用在许多顶级会议上被评选为最佳(学生)论文:ICML 上的决斗网络(dueling network)架构(Wang et al., 2016a)、ACL 上的口语对话系统(Su et al., 2016b)(学生论文)、EMNLP 上的信息提取(Narasimhan et al., 2016)、以及 NIPS 上的价值迭代网络(value iteration networks)(Tamar et al., 2016)。激动人心的成就比比皆是:异步方法(Mnihetal.,2016)、用于机器翻译的双学习(dual learning)(Heetal., 2016a)、有引导的策略搜索(Levine et al., 2016a)、生成对抗式模仿学习(Hoand Ermon, 2016)、无监督强化和辅助学习(Jaderberg et al., 2017)、神经架构设计(Zoph and Le, 2017)等等。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容