码报:【组图】深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo(5)_本港台直播_J2开奖直播

第三个改进就是把Q 网络分成两个信道。一部分用来计算当你忽略了一些动作的时候你会得到多少奖励（幻灯片中的action-independent），另一部分用来计算实际中当你采取了某一个特定的动作之后你会做得多么好。然后将两个网络的计算结果求和。然后取两者的总和。正如前面视频中演示的，如果你把这个结果正则化，结果会发现这两个通道会闪烁，因为它们有不同的扩展（scaling）属性。将两个网络分开，去帮助神经网络学习更多的东西，这实际上是很有帮助的。

它们通过在Google 利用下面的结构（Gorila）来让系统加速，这很适合海量数据。

码报:【j2开奖】深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

Gorila 结构运行在很多不同的机器上，这让它们可以共同运行深度 Q 网络。我们有许多个代理并行运行的实例，有我们环境的许多不同的实例，这些环境都是基于许多不同的机器，这样便能让我们在力所能及的情况下生成尽可能多的经历。

这些经历被存放在一个分布式的经历回放记忆（experience replay memory）中。本质上就是将所有并行的代理的经历收集起来并且以分布式的方式存储。我们由很多学习器能够在这些经历中并行采样。一旦你有了这个经历回放的缓存，我们可以从中读取很多不同的东西并且将其应用于系统的更新上。然后，从那些学习器返回的参数更新将被共享到我们存储的分布式神经网络中，然后在实际上运行在这些机器上的每个代理共享。

那么，在没有Google 的资源的情况下，我们如何做才能加速强化学习呢？可以使用异步强化学习：

利用标准 CPU 的多线程

将一个代理的多个实例并行执行

线程间共享网络参数

并行地消除数据地相关性

经历回放的可替代品

在单个机器上进行类似于 Gorila 的加速！

基于策略的深度强化学习

深度策略网络

码报:【j2开奖】深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

策略梯度

码报:【j2开奖】深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

Actor-Critic算法

码报:【j2开奖】深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

异步优势Actor Critic 算法（A3C）

码报:【j2开奖】深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

Labyrinth中的异步优势Actor Critic 算法（A3C）

码报:【j2开奖】深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo

从输入的像素中进行 softmax 策略 π(a|st) 的端到端学习。对环境的观测量 ot 是当前帧的原始像素。状态 st= f(o1, …, ot) 是一个循环神经网络（LSTM）。网络在策略π(a|s) 下同时输出价值 V(s) 和激活函数 softmax 的结果值。任务是收集苹果（+1 分奖励）和逃跑（+10 分奖励）。

深度强化学习中采用异步方法的演示:Labyrinth，如下

我们如何处理高维连续动作空间？

码报:【j2开奖】深度 | David Silver全面解读深度强化学习：从基础概念到AlphaGo