本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】从梯度下降到拟牛顿法:详解训练神经网络的五大学习算法(4)

时间:2017-03-12 16:23来源:本港台直播 作者:www.wzatv.cc 点击:
当衰减参数λ为 0 时, atv直播 ,Levenberg-Marquardt 算法就是使用海塞矩阵逼近值的牛顿法。而当 λ很大时,该算法就近似于采用很小学习速率的梯度下降法。

当衰减参数λ为 0 时,atv直播,Levenberg-Marquardt 算法就是使用海塞矩阵逼近值的牛顿法。而当 λ很大时,该算法就近似于采用很小学习速率的梯度下降法。如果进行迭代导致了损失函数上升,衰减因子λ就会增加。如果损失函数下降,那么λ就会下降,从而 Levenberg-Marquardt 算法更接近于牛顿法。该过程经常用于加速收敛到极小值点。

使用 Levenberg-Marquardt 法的神经网络训练过程状态图就如下图所示。第一步就是计算损失函数、梯度和海塞矩阵逼近值,随后再在每次迭代降低损失中调整衰减参数。

  

报码:【j2开奖】从梯度下降到拟牛顿法:详解训练神经网络的五大学习算法

正如我们所了解到的,Levenberg-Marquardt 算法是为平方误差和函数所定制的。这就让使用这种误差度量的神经网络训练地十分迅速。然而 Levenberg-Marquardt 算法还有一些缺点,第一就是其不能用于平方根误差或交叉熵误差(cross entropy error)等函数,此外该算法还和正则项不兼容。最后,对于大型数据集或神经网络,雅可比矩阵会变得十分巨大,因此也需要大量的内存。所以我们在大型数据集或神经网络中并不推荐采用 Levenberg-Marquardt 算法。

内存与收敛速度的比较

下图展示了所有上文所讨论的算法,及其收敛速度和内存需求。其中收敛速度最慢的是梯度下降算法,但该算法同时也只要求最少的内存。相反,Levenberg-Marquardt 算法可能是收敛速度最快的,但其同时也要求最多的内存。比较折衷方法是拟牛顿法。

  

报码:【j2开奖】从梯度下降到拟牛顿法:详解训练神经网络的五大学习算法

总而言之,如果我们的神经网络有数万参数,为了节约内存,我们可以使用梯度下降或共轭梯度法。如果我们需要训练多个神经网络,并且每个神经网络都只有数百参数、数千样本,那么我们可以考虑 Levenberg-Marquardt 算法。而其余的情况,拟牛顿法都能很好地应对。

  原文地址:https://www.neuraldesigner.com/blog/5_algorithms_to_train_a_neural_network

©本文为机器之心编译,转载请联系本公众号获得授权

  ?------------------------------------------------

加入机器之心(全职记者/实习生):[email protected]

投稿或寻求报道:[email protected]

广告&商务合作:[email protected]

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容