报码:【j2开奖】专题 | 深度强化学习综述：从AlphaGo背后的力量到学习资源分享（附论文）(4)_本港台直播_J2开奖直播

我们将在第 13 节讨论使用类似的无监督辅助学习的机器人导航以及生成式对抗网络（GAN），并在第 6 节讨论近期的无监督学习框架。也请参阅Sutton et al.(2011) , 一个用于以无监督感觉运动学习互动来学习知识的可扩展实时架构 Horde.

10 学习去学习（LEARNING TO LEARN）

学习去学习与迁移学习、多任务学习或表征学习相关，是形成实现强大人工智能的核心要素之一（Lake et al., 2016）。学习去学习也与元学习（meta learning）和一次性学习（one-shot learning）有关。

Duan et al. (2017) 和 Wang et al. (2016a) 提出通过学习一个灵活的 RNN 模型来处理一系列 RL 任务，从而能够提高样本效率，能够从几个样本中学到新任务，并且可以从先验知识中获益。此代理使用 RNN 建模，并输入了观察、奖励、行动和终止标志；它使用 RL，Duan et al.（2017）提出的 TRPO 和 Wang 等（2016a）的 A3C 算法来训练 RNN 的权重，并且在使用特定 RL 算法解决的多个问题中表现相似。Duan 等在 2017 年使用多臂赌博机、表 MDP 和视觉导航进行了实验，并指出对于较大型的问题，需要更好的 RL 算法来训练 RNN。Wang et al.（2016a）对独立臂赌博机、依赖臂赌博机、持续性臂和 MDP 进行了实验。未来的工作方向之一便是提高可扩展性。

Li 和 Malik 在 2017 年建议通过将特定的优化算法表示为策略，将收敛速度表示为奖励，以引导策略搜索（Levine et al.，2016a）来使无约束连续性优化算法自动化。

11 Games（博弈/游戏）

游戏为强化学习/人工智能算法提供了非常好的测试平台。我们在第 3 节讨论了深度 Q 网络（DQN）及其延展，所有这些都在 Atari 游戏上做了测试。我们在第 4 节讨论了 Mnih et al. (2016)，在第 9 节讨论了 Jaderberg et al. (2017)，在第 13 节讨论了 Mirowski et al. (2017)——他们使用了 Labyrinth 作为测试平台。

西洋双陆棋和围棋是完美信息博弈（perfect information games）。我们在 11.1 讨论了西洋双陆棋这样的棋盘游戏。在 11.2 讨论了 Doom 这样的视频游戏。我们将扑克游戏放到了 11.3，讨论了非完美信息博弈（imperfect information games），其中涉及到了博弈论（game theory）。Labyrinth 和 Doom 等视频游戏通常是非完美博弈，但是目前还没有使用博弈论来解决这些问题。

我们将 AlphaGo(Silver et al., 2016) 单独成了第 12 节，因为其有很大的重要性。

11.1 棋盘游戏

11.2 视频游戏

11.3 非完美信息博弈

12 AlphaGo

AlphaGo (Silver et al., 2016) 是一个计算机围棋程序，其在 2015 年 10 月份以 5 局全胜击败了欧洲围棋冠军，成为了第一个在全尺寸 19×19 棋盘上无让子地击败了人类职业棋手的计算机围棋程序。不久之后，2016 年 3 月份，AlphaGo 以 4:1 的成绩击败了曾获 18 次世界冠军的围棋手李世石，引起了世界的广泛关注。这是人工智能发展的一个里程碑。围棋问题的困难之处不仅在于其超大的搜索空间（search space）——250^150，一个天文数字；而且也是因为其局面评估（position evaluation）的难度非常大，而西洋双陆棋和国际象棋等游戏已经通过局面评估得到了解决。

12.1 训练流程和蒙特卡洛树搜索（MCTS）

我们在 Silver et al. (2016) 与 Sutton and Barto (2017) 的基础上简要讨论了 AlphaGo 的工作方式。参见 Sutton and Barto (2017) 中第 16 章可了解 AlphaGo 的详细和直观描述。DeepMind 对 AlphaGo 的描述可查阅：goo.gl/lZoQ1d

(责任编辑：本港台直播)