这里我们分析了在优化深度学习算法经验风险时的驻点属性。为了简化起见,我们使用了几何性孤立(geometrically isolated)的非退化驻点,因此该驻点局部中是唯一的。 5 深度非线性神经网络的结果 在以上章节,我们分析了深度线性神经网络模型的经验风险优化全景图。在本节中,我们接着分析深度非线形神经网络,它采用了 sigmoid 激活函数并在实践之中更受欢迎。值得注意的是,我们的分析技巧也适用于其他三阶微分函数,比如 带有不同收敛率的 tanh 函数。这里我们假设输入数据是高斯变量(i.i.d. Gaussian variables)。 5.1 一致性收敛、经验风险的稳定性和泛化 本章节中,我们首先给出经验风险的一致收敛分析,接着分析其稳定性(Stability)和泛化。 定理 4. 假定输入样本 x 服从假设 2,并且深度神经网络的激活函数是 sigmoid 函数,那么如果 那么存在通用的常数 cy,满足:
该不等式的置信度至少为 1−ε,其中 5.2 梯度和驻点的一致性收敛 在这一部分中,我们分析了深度非线性神经网络经验风险的梯度收敛性质。 定理 5 假定输入样本 x 服从假设 2,并且深度神经网络中的激活函数为 sigmoid 函数。那么经验风险的梯度以 L2 范数(欧几里德范数)的方式一致收敛到群体风险的梯度。特别地,如果 其中 cy' 为常数,那么有: 该不等式的置信度至少为 1 − ε,其中 cy、 cd 和 cr 是在定理 4 中的相同参数。 6 证明概览 在该章节中,我们将简单介绍证明的过程,不过由于空间限制,定理 1 到 6、推论 1 到 2、还有技术引理在补充材料中展示。 7 结论 在这项工作中,我们提供了深度线性/非线性神经网络经验风险优化全景图的理论分析,包括一致性收敛、稳定性和经验风险本身的泛化及其梯度和驻点的属性。我们证明了经验风险到群体风险的收敛率为。这些结果同样揭示了神经网络深度(层级数)l、网络大小及宽度对收敛率至关重要。我们也证明了权重参数的量级在收敛速度上也扮演着重要角色。事实上,我们建议使用小量级权重数。所有的结果与实践中广泛使用的网络架构相匹配。 (责任编辑:本港台直播) |