本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:从浅层模型到深度模型:概览机器学习优化算法(3)

时间:2017-07-10 02:51来源:118论坛 作者:j2开奖直播 点击:
有趣的是,这些方法没有计算出显式二阶导数,而是通过在每次迭代中应用低秩更新构造完全由一阶导数的海塞近似矩阵。例如,让我们简要介绍最流行的

有趣的是,这些方法没有计算出显式二阶导数,而是通过在每次迭代中应用低秩更新构造完全由一阶导数的海塞近似矩阵。例如,让我们简要介绍最流行的拟牛顿算法,全称为 Broyden-Fletcher-Goldfarb-Shanno(BFGS)方法。在这种方法中,我们首先可以看到(21)的最小值为、进一步发现它实际上可以方便地计算出逆 Hessian 近似。由于随着步长 sk = w_k+1 − wk 和位移 yk = ∇F(wk+1) − ∇F(wk) 的移动,有人选择 以最小化以满足割线方程 sk = (B^-1)yk。使用精心挑选的规范表达,这个问题的解析式可以显示的写成

其中之间的差异可以仅表示为二阶矩阵。

为方便引用,完整的经典 BFGS 算法被称为算法 3。

报码:从浅层模型到深度模型:概览机器学习优化算法

即使采用二阶信息,随机优化方法(无差异减少)也无法达到比次线性更快的收敛速度。不过,使用二阶信息是一个不错的想法,因为如果海塞近似矩阵收敛于海塞矩阵的真实解,则可以减少收敛速度中的常数,同时还可以减少病态(ill-conditioning)的影响。

不幸的是,尽管已经观察到了实际的效率提升,但在理论上还没有一个真正的二阶方法,可以实现这样的提升。到目前为止,只要海塞(近似)矩阵保持良好特性,大多数实际的方法只能保证实现 SGD 的收敛(速率)特性。例如,如果序列 {Bk}(不一定由 BFGS 更新生成)对所有 k 满足:

此时具有与 SGD 相同的收敛速度属性。我们就 可以合理地假设这些限定适用于上述讨论的方法,这些假设有适当的保障。然而,在拟牛顿方法的背景下应该小心,其中随机梯度估计可能与海塞近似相关。

3 深度学习

沿着这些方向进行的主要进展包括深层神经网络(DNN)的运用。机器学习的一个相应的分支称为深度学习(或分层学习),它代表了一类试图通过使用包含连续线性和非线性变换的多层次深层图来构造数据中高层次抽象的算法 [6, 51, 73, 37, 38, 23]。近年来科学家们已经研究了各种神经网络类型,包括全连接神经网络(FNN)[84,28],卷积神经网络(CNN)[50] 和循环神经网络(RNN)[41,57,52]。对于我们来说,将主要关注前两类神经网络,同时留意其它网络。

3.1 问题公式化

3.2 随机梯度下降法

我们引用以下内容来强调将优化算法应用于训练 DNN 的令人困惑的反应。首先,例如在 [11] 中,有一个结论表明,通过应用 SGD 来最小化非凸目标函数(一直从输入×输出空间绘制),可以保证预期梯度风险将消失,至少在一个子序列上是这样,即:这一结论令人欣慰,这表明 SGD 可以实现与其他最先进的基于梯度的优化算法类似的收敛保证。然而,尽管文献中的种种保证是有局限性的; 毕竟,尽管许多基于梯度的优化算法确保目标函数单调减少,但 SG 并不以这种方式计算。因此,如果一个子序列收敛到一个固定点,那么我们怎么能确定该点不是鞍点,或者是有误差局部最小值,亦或是一些目标值比初始点差的最大值?事实上,我们并不能肯定。也就是说,SGD 方法通常擅长找到局部极小值,而不是全局最小值。另一方面,SGD 往往会在固定值附近减缓收敛速度,这可能会阻碍它在深度神经网络中发展。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容