将强化学习和深度学习结合在一起,我们寻求一个能够解决任何人类级别任务的代理。强化学习定义了优化的目标,深度学习给出了运行机制——表征问题的方式以及解决问题的方式。强化学习+深度学习就得到了能够解决很多复杂问题的一种能力——通用智能。 DeepMind 中深度强化学习的例子有: 游戏:Atari 游戏、扑克、围棋 探索世界:3D 世界、迷宫 控制物理系统:操作、步行、游泳 与用户互动:推荐、优化、个性化 那么,我们如何结合强化学习和深度学习呢? 用深度神经网络来代表 价值函数 策略 模型 用随机梯度下降来优化损失函数 下面的三部分,我们分别讨论三种结合强化学习和深度学习的方法。 基于价值的深度强化学习 基于价值的深度强化学习的基本思想就是建立一个价值函数的表示,我们称之为 Q 函数。 其中: s =状态 a =动作 w =权值 正如我们在上边图片中看到的一样,基本上就是一个黑盒子,将状态和动作作为输入,并输出 Q 和一些权值参数。 我们会用到基于 Q学习的基本方法。这种方法会想出我们需要的损失函数,而且是以贝尔曼方程作为开始的。 如上图所示,我们等号右边作为优化的目标。现在逐步解释这个算法:将左侧的内容移到等号右边。 (责任编辑:本港台直播) |