本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争(2)

时间:2017-02-19 18:56来源:报码现场 作者:本港台直播 点击:
随机化测试。 我们方法的核心是众所周知的非参数统计的随机化测试的变体(Edgington&Onghena,2007)。 在第一组实验中,我们在数据的副本上训练若干标

  随机化测试。我们方法的核心是众所周知的非参数统计的随机化测试的变体(Edgington&Onghena,2007)。 在第一组实验中,我们在数据的副本上训练若干标准架构,其中真实标签被随机标签替代。 我们的核心发现可以概括为:

  深层神经网络容易拟合随机标签。

  更准确地说,当对真实数据的完全随机标记进行训练时,神经网络实现0训练误差。 当然,测试误差并不比随机概率好,因为训练标签和测试标签之间没有相关性。 换句话说,通过单独使标签随机化,我们可以迫使模型的泛化显著地提升,而不改变模型、大小、超参数或优化器。 我们对在CIFAR10和ImageNet分类基准上训练的几个不同的标准架构确证了这一事实。 简而言之,从统计学习角度来看,这一观察有着深刻的影响:

神经网络的有效容量对于整个数据集的强力记忆是足够大的;

即使对随机标签的优化仍然容易。 事实上,与对真实标签的训练相比,训练时间只增加了一个小的恒定因子;

随机化标签仅仅是数据转换,所有其他学习问题的性质没有改变。

  在这第一组实验上,我们还用完全随机的像素(例如高斯噪声)来替换真实图像,并观察到卷积神经网络继续拟合具有零训练误差的数据。这表明,无论它们的结构怎样,卷积神经网络可以拟合随机噪声。我们还进一步改变随机化的量,平滑地添加在无噪声和完全噪声的情况之间。这导致一系列intermediate learning problems,在标签中仍然存在某些程度的信号。随着噪声水平的提高,我们观察到泛化误差的稳步恶化 。这表明神经网络能够捕获数据中的剩余信号,开奖,同时使用强力拟合噪声部分。

  我们将在下面进一步详细讨论这些观察结果如何排除所有VC维度、Rademacher复杂性和均匀稳定性这些现有神经网络泛化性能的可能解释。

  显式正则化的作用。如果模型架构本身不是一个足够的正则化矩阵,它仍然能够展示出显式正则化在多大程度上有帮助。 我们论证了,正则化的显式形式,如权重削减、丢失和数据增加,都不能充分解释神经网络的泛化误差。 换句话说:

  显式正则化可以提高泛化性能,但是既不必要也不足以控制泛化误差。

  有限样本表达率。 我们用理论结果补充了我们的实证观察结果,表明一般大规模的神经网络可以表示训练数据的任何标记。 更正式地,我们展示了一个非常简单的双层ReLU网络,其中p = 2n + d个参数,可以表示d维中任何大小为n的样本的任何标记。 由于此前Livni et al。 (2014)使用多得多的参数,即O(dn),实现了类似的结果。 虽然我们的depth 2网络不可避免地具有大的宽度,但是我们仍然可以得到深度k网络,其中每层仅具有O(n / k)个参数。

  虽然先前的表达率结果集中在神经网络可以在整个域起到什么作用,这次我们重点关注了和有限样本相关的神经网络的表达率。 与现有的对函数空间的深度层别作用认识相反(Delalleau&Bengio,2011; Eldan&Shamir,2016; Telgarsky,2016; Cohen&Shashua,2016),我们的结果表明,即使depth 2网络的线性大小已经可以表示训练数据的任何标签。

  隐式正则化的作用。虽然显式正则化函数(如 dropout 和 weight-decay)对于泛化可能不是必需的,但是肯定不是所有拟合训练数据的模型都很好地泛化。 事实上,在神经网络中,我们几乎总是选择我们的模型作为随机梯度下降运行的输出。 诉诸线性模型,我们分析SGD如何作为隐式正则化函数。 对于线性模型,SGD总是收敛到具有小范数的解。 因此,算法本身隐性地使解正则化。 事实上,我们论证了,对于小数据集,即使无正则化的Gaussian kernel method也可以很好地泛化 。虽然这不解释为什么某些架构比其他架构更好地泛化,但它确实表明需要更多的研究来了解从使用SGD训练的模型中继承的属性是什么。

  2.关于论证

  必要的背景知识:

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容