wzatv:【j2开奖】技术 | 深度解读最流行的优化算法：梯度下降(5)_本港台直播_J2开奖直播

作者还注意到，在该更新中（在 SGD、动量法或者 Adagrad 也类似）的单位并不一致，也就是说，更新值的量纲与参数值的假设量纲并不一致。为改进这个问题，他们定义了另外一种指数衰减的衰减均值，他是基于参数更新的平方而非梯度的平方来定义的：

因此，对该问题的方均根为：

因为值未知，所以我们使用时刻的方均根来近似。将前述规则中的学习率替换为，我们最终得到了 Adadelta 法的更新规则：

wzatv:【j2开奖】技术 | 深度解读最流行的优化算法：梯度下降

借助 Adadelta 法，我们甚至不需要预设一个默认学习率，因为它已经从我们的更新规则中被删除了。

RMSprop 法

RMSprop 是由 Geoff Hinton 在他 Coursera 课程中提出的一种适应性学习率方法，至今仍未被公开发表。

RMSprop 法和 Adadelta 法几乎同时被发展出来。他们解决 Adagrad 激进的学习率缩减问题。实际上，RMSprop 和我们推导出的 Adadelta 法第一个更规则相同：

wzatv:【j2开奖】技术 | 深度解读最流行的优化算法：梯度下降

RMSprop 也将学习率除以了一个指数衰减的衰减均值。Hinton 建议设定为 0.9，对而言，0.001 是一个较好的默认值。

Adam

适应性动量估计法（Adam）[15] 是另一种能对不同参数计算适应性学习率的方法。除了存储类似 Adadelta 法或 RMSprop 中指数衰减的过去梯度平方均值外，Adam 法也存储像动量法中的指数衰减的过去梯度值均值：

wzatv:【j2开奖】技术 | 深度解读最流行的优化算法：梯度下降

和分别是梯度的一阶矩（均值）和二阶矩（表示不确定度的方差），这也就是该方法名字的来源。因为当和一开始被初始化为 0 向量时，Adam 的作者观察到，该方法会有趋向 0 的偏差，尤其是在最初的几步或是在衰减率很小（即和接近 1）的情况下。

他们使用偏差纠正系数，来修正一阶矩和二阶矩的偏差：

wzatv:【j2开奖】技术 | 深度解读最流行的优化算法：梯度下降

他们使用这些来更新参数，更新规则很我们在 Adadelta 和 RMSprop 法中看到的一样，服从 Adam 的更新规则：

作者认为参数的默认值应设为：

　　。他们的经验表明，Adam 在实践中表现很好，和其他适应性学习算法相比也比较不错。

算法可视化

如下的两个动画（图像版权：Alec Radford）给了我们关于特定优化算法在优化过程中行为的直观感受。你可以参见这里，以获取 Karpathy 对相同图像的一些描述，及另关于一些相关算法的细致讨论。

在图 5 中，我们可以看到，在罚函数的等高线图中，优化器的位置随时间的变化情况。注意到，Adagrad、 Adadelta 及 RMSprop 法几乎立刻就找到了正确前进方向并以相似的速度很快收敛。而动量法和 NAG 法，则找错了方向，如图所示，让小球沿着梯度下降的方向前进。但 NAG 法能够很快改正它的方向向最小指出前进，因为他能够往前看并对前面的情况做出响应。

图 6 展现了各算法在鞍点附近的表现。如上面所说，这对对于 SGD 法、动量法及 NAG 法制造了一个难题。他们很难打破」对称性「带来的壁垒，尽管最后两者设法逃脱了鞍点。而 Adagrad 法、RMSprop 法及 Adadelta 法都能快速的沿着负斜率的方向前进。

wzatv:【j2开奖】技术 | 深度解读最流行的优化算法：梯度下降

如我们所见，适应性学习率方法，也就是 Adagrad 法、Adadelta 法、RMSprop 法及 Adam 法最适合处理上述情况，并有最好的收敛效果。

　　如何选择优化器？

那么，我们该如何选择优化器呢？如果你的输入数据较为稀疏（sparse），那么使用适应性学习率类型的算法会有助于你得到好的结果。此外，使用该方法的另一好处是，你在不调参、直接使用默认值的情况下，就能得到最好的结果。

(责任编辑：本港台直播)