本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】从梯度下降到拟牛顿法:详解训练神经网络的五大学习算法(2)

时间:2017-03-12 16:23来源:本港台直播 作者:www.wzatv.cc 点击:
如果我们指定 f(wi)= fi、?f(wi)= gi,那么该优化方法由点 w0 开始迭代,在满足终止条件之前,就在训练方向 di=-gi 上将 wi 移向 wi+1。因此,梯度下降法

如果我们指定 f(wi)= fi、?f(wi)= gi,那么该优化方法由点 w0 开始迭代,在满足终止条件之前,就在训练方向 di=-gi 上将 wi 移向 wi+1。因此,梯度下降法就是如下方程式进行迭代。

其中参数 η 是学习速率。该学习速率的值可以设定为一个常量也可以沿着训练方向使用单变量优化法求得。通常学习速率的最优值可以在连续迭代步(successive step)上通过线最小化(line minimization)获得。然而,现在还是有很多机器学习模型仅仅只使用固定的学习速率。

下面是一张使用梯度下降算法进行学习的流程图。我们可以看到,参数向量通过两步进行优化:首先,计算梯度下降的训练方向。其次,寻找合适的学习速率。

报码:【j2开奖】从梯度下降到拟牛顿法:详解训练神经网络的五大学习算法

梯度下降算法也有一些缺点,首先就是其迭代方向会呈现一种锯齿现象,其并不能朝着极小值点径直优化,所以迭代的次数也就多,收敛的速度也就慢。当它的函数梯度图又窄又长时(变量没有归一化,值处于不同的量级),迭代所需要的步数就会更多了。最速下降法确实沿着最陡的梯度下降,损失函数减少得最迅速,但这并不代表梯度下降法或最速下降法会最快收敛(因为锯齿现象)。下图就可以直观地了解到这种锯齿现象,因为非线性函数局部的梯度方向并不一定就是朝着最优点。并且该图还表明,如果横轴量级与纵轴量级有差别时,损失函数梯度图会呈现为一种椭圆形,而如果从椭圆长半轴端点开始下降,那么迭代步数就会很多。

  

报码:【j2开奖】从梯度下降到拟牛顿法:详解训练神经网络的五大学习算法

在训练大规模神经网络时,因为有上万的参数,所以梯度下降法是比较有效的。因为梯度下降算法储存的梯度算符向量规模为 n,而海塞矩阵储存的规模就为 n^2 了,同时梯度和海塞矩阵的计算量也是天差地别。

牛顿

  牛顿法是二阶算法,因为该算法使用了海塞矩阵(Hessian matrix)求权重的二阶偏导数。牛顿法的目标就是采用损失函数的二阶偏导数寻找更好的训练方向。现在我们将采用如下表示: f(wi) = fi、?f(wi) = gi 和 Hf(wi) = Hi。在 w0 点使用泰勒级数展开式二次逼近函数 f。

  

H0 为函数 f 在点 w0 的海塞矩阵。通过将 g 设定为 0,我们就可以找到 f(w) 的极小值,也就得到了以下方程式。

因此,从参数向量 w0 开始,牛顿法服从以下方式进行迭代:

向量 Hi-1·gi(参考上式)也就是所说的牛顿下降步(Newton's step)。注意,参数的这些变化将朝着极大值而不是极小值逼近,出现这样的情况是因为海塞矩阵非正定。因此在不能保证矩阵正定的情况下,损失函数并不能保证在每一次迭代中都是减少的。为了防止上述问题,牛顿法的方程式通常可以修改为:

学习速率η同样可是设定为固定常数或通过单变量优化取值。向量 d=Hi-1·gi(参考上式)现在就称为牛顿训练方向(Newton's training direction)。

使用牛顿法的训练过程状态图就如下图所示。从此图可以看出来,系统首先通过获得牛顿训练方向,然后获得合适的学习速率来进行参数的更新优化。

  

报码:【j2开奖】从梯度下降到拟牛顿法:详解训练神经网络的五大学习算法

下面的梯度图展示了牛顿法的性能。因为牛顿法是采用其损失函数的二阶偏导数寻找更好的训练下降方向,所以它相比梯度下降只要更少的迭代次数就能下降到损失函数的极小值,因此函数收敛速度也会大幅度地加快。

  

报码:【j2开奖】从梯度下降到拟牛顿法:详解训练神经网络的五大学习算法

然而,开奖,牛顿法的困难之处在于其计算量,因为对海塞矩阵及其逆的精确求值在计算量方面是十分巨大的。

共轭梯度法(Conjugate gradient)

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容