本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:从浅层模型到深度模型:概览机器学习优化算法(4)

时间:2017-07-10 02:51来源:118论坛 作者:j2开奖直播 点击:
一般来说,对于非凸问题, 直播 ,SGD 的收敛速度记录在 [29,30],但是它们非常有限,特别是它们不适用于§1.3 中的讨论。因此,我们不能以同样的方式争

一般来说,对于非凸问题,直播,SGD 的收敛速度记录在 [29,30],但是它们非常有限,特别是它们不适用于§1.3 中的讨论。因此,我们不能以同样的方式争论 SGD 是机器学习中非凸优化问题的最佳方法。此外,下式

中的学习界限是没有用的,因为对于许多 DNN 和 CNN,由神经网络产生的分类的复杂度 C 比训练样本数 n 大得多。事实上,在 [90] 中,经验表明,只有这些集合中的数据随机扰动,神经网络才能轻易地超过典型的数据集类型。

3.3 海塞-自由优化方法(Hessian-free method)

有研究者发现我们可以修改 DNN 的反向传播算法来计算这样的海塞-矢量乘积,因为它们可以被看作是方向导数 [65]。计算这种乘积的复杂度只是比计算梯度多一个常数因子。所得到的类的方法通常被称为海塞-自由优化方法,因为当访问和使用 Hessian 信息时,没有显式地存储 Hessian 矩阵。

由于目标函数的非凸性,在 DNN 的情况中出现了其它的问题,真正的海塞矩阵可能不是正定矩阵。一般来说,在确定性优化中,处理这个问题的两种可能的方法是修改海森矩阵和运用置信域(trust region)方法。这两种方法都在训练 DNN 的情况中探讨过,例如,在 [54,55] 中,提出了一种高斯牛顿法,其在(11)中函数 F 的 Hessian 的公式中的第一项近似于 Hessian 矩阵(省略了正则化项)

报码:从浅层模型到深度模型:概览机器学习优化算法

其中是关于第一个参数的损失函数 l(·, ·) 的海塞矩阵,∇p(w, xi) 是 dy-维函数 p(w, x) 对于权重 w 的雅可比式,∇^2 [pj (w, xi)] for all j ∈ {1, . . . , dy} 是关于 w 的按元素运算的海塞矩阵。

3.4 子采样海森方法(Subsampled Hessian method)

最近,在一系列论文(3, 15, 34)中,研究员们利用一个很一般的随机模型框架,对凸区域和非凸情形下的置信域、线搜索和自适应三次正则化方法进行了分析。在这项工作中,它表明,只要梯度和 Hessian 估计是足够准确的一些正概率,使用随机不精确梯度和 Hessian 信息的标准优化方法就可以保留其收敛速度。

在机器学习和采样 Hessian 和梯度的情况下,结果只要求| SK |必须选择足够大的相对于该算法采取的步骤的长度。例如,在 [ 3, 34 ],| SK |大小与置信域半径的关系。需要注意的是,对于采样的海塞矩阵,其对样本集的大小要求比采样的梯度要高得多,因此支持使用精确梯度的海塞估计的思想催生了强大的算法,它拥有强大理论支撑和良好的实践高效性。

本文为机器之心编译,转载请联系本公众号获得授权

✄------------------------------------------------

加入机器之心(全职记者/实习生):[email protected]

投稿或寻求报道:[email protected]

广告&商务合作:[email protected]

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容