本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:深度学习算法全景图:从理论证明其正确性(2)

时间:2017-06-04 20:14来源:香港现场开奖 作者:开奖直播现场 点击:
这里我们分析了在优化深度学习算法经验风险时的驻点属性。为了简化起见,我们使用了几何性孤立(geometrically isolated)的非退化驻点,因此该驻点局部

这里我们分析了在优化深度学习算法经验风险时的驻点属性。为了简化起见,我们使用了几何性孤立(geometrically isolated)的非退化驻点,因此该驻点局部中是唯一的。

5 深度非线性神经网络的结果

在以上章节,我们分析了深度线性神经网络模型的经验风险优化全景图。在本节中,我们接着分析深度非线形神经网络,它采用了 sigmoid 激活函数并在实践之中更受欢迎。值得注意的是,我们的分析技巧也适用于其他三阶微分函数,比如 带有不同收敛率的 tanh 函数。这里我们假设输入数据是高斯变量(i.i.d. Gaussian variables)。

5.1 一致性收敛、经验风险的稳定性和泛化

本章节中,我们首先给出经验风险的一致收敛分析,接着分析其稳定性(Stability)和泛化。

定理 4. 假定输入样本 x 服从假设 2,并且深度神经网络的激活函数是 sigmoid 函数,那么如果

那么存在通用的常数 cy,满足:

  

该不等式的置信度至少为 1−ε,其中

5.2 梯度和驻点的一致性收敛

在这一部分中,我们分析了深度非线性神经网络经验风险的梯度收敛性质。

定理 5 假定输入样本 x 服从假设 2,并且深度神经网络中的激活函数为 sigmoid 函数。那么经验风险的梯度以 L2 范数(欧几里德范数)的方式一致收敛到群体风险的梯度。特别地,如果

其中 cy' 为常数,那么有:

该不等式的置信度至少为 1 − ε,其中 cy、 cd 和 cr 是在定理 4 中的相同参数。

6 证明概览

在该章节中,我们将简单介绍证明的过程,不过由于空间限制,定理 1 到 6、推论 1 到 2、还有技术引理在补充材料中展示。

7 结论

在这项工作中,我们提供了深度线性/非线性神经网络经验风险优化全景图的理论分析,包括一致性收敛、稳定性和经验风险本身的泛化及其梯度和驻点的属性。我们证明了经验风险到群体风险的收敛率为。这些结果同样揭示了神经网络深度(层级数)l、网络大小及宽度对收敛率至关重要。我们也证明了权重参数的量级在收敛速度上也扮演着重要角色。事实上,我们建议使用小量级权重数。所有的结果与实践中广泛使用的网络架构相匹配。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容