本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争(3)

时间:2017-02-19 18:56来源:报码现场 作者:本港台直播 点击:
Ademacher complexity:数据集(X_1,... X_n)上某个假设类H的复杂度度量。 平均来说,这一complexity测量了假设类H在数据中拟合所有可能的标签的机会。在下面

  Ademacher complexity:数据集(X_1,... X_n)上某个假设类H的复杂度度量。 平均来说,这一complexity测量了假设类H在数据中拟合所有可能的标签的机会。在下面的randomization 部分,我们将使用这种 complextiy 证明这种 complexity 不足以解释大型模型的成功。

wzatv:【j2开奖】【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争

  均匀稳定性:一种显示特定模型对替换单个数据样本的敏感程度的度量。 重要的是要注意,这只是模型的属性,而不是数据本身的属性。

  随机化:

  第一个概念是“深层神经网络轻松拟合随机标签”。基本上,我们可以使任何组的输入拟合任何组的输出,并实现0训练错误。 这使我们得出结论,一个足够大的DNN可以简单地使用暴力记忆来拟合数据。

  即使在数据中具有各种级别的随机性,该模型仍然能够拟合。随着随机化中的噪声量的增加,泛化(测试误差 - 训练误差)开始增加。这意味着模型正在学习识别什么信号应保留在数据中,并使用记忆来拟合噪声。

  我们使用数据测试了几个级别的随机性,而网络总是能够在训练期间完全拟合。 然而,随着更多的随机性插入,目标函数花费了更长的时间。 这主要是由于反向传播的大误差导致了通过梯度的大规模参数更新。

  

wzatv:【j2开奖】【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争

  图1:CIFAR10上随机标记和随机像素的拟合。(a)显示了不同实验设置下的training loss随着训练步骤恶化的情况;(b)显示了不同的label corruption ratio相应的收敛时间;(C)显示了不同的label corruptions下的测试误差(因为训练误差0,所以这同样也是泛化误差)

  在这些实验中需要注意的一点是,这只是一个数据变化。 本文使用这个随机化实验来排除泛化成功的可能原因,如 Rademacher complexity 和 uniform stability。

  我们可以排除complexity度量,如Rademacher,因为我们的模型完全拟合训练数据(因此,R(H)= 1)。 我们不能再使用均匀的收敛边界作为解释低泛化误差的理由。 我们也不能使用稳定性度量,因为这种改变是针对数据而不是任何模型参数。

  正则化:

  第二个概念是“显式正则化可以提高泛化性能,但是既不必要也不足以控制泛化误差”。 本文将正则化技术概括为有助于泛化的调整参数,但对于低测试错误不是必需的。 思考正则化的作用的一个好方法是考虑整个假说空间。 通过使用regulizer,我们实质上将可能的假设空间减小到较小的子集。

  本文尝试了三种类型的显式正则化:data augmentation, weight decay and dropout。 作者发现,data augmentation和weight decay有助于减少测试误差,但即使没有使用,模型仍然能够很好地泛化。(注意:与weight decay相比,data augmentation被发现是相当有帮助的,也就是说,数据是最好的regularizer)。

  

wzatv:【j2开奖】【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争

  表2显示了Imagenet面对真实标签和随机标签时各自的性能

  作者尝试了各种形式的隐式正则化,例如early stopping和批量标准化。 对于这两种技术,泛化误差在不使用该技术的情况下只有少量减少。 这使得作者可以得出结论,“regularizer不可能是泛化的根本原因”。

  

wzatv:【j2开奖】【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争

  图2:隐式正则化对泛化性能的影响。aug 是data augmentation, wd 是weight decay,BN是batch normalization。(a)其他regularizer缺失时,early stopping 可以潜在地提高泛化;(b)CIFAR10上,early stopping 基本没有帮助,但batch normalization稳定了训练进程,提高了泛化。

  有限样本表达率

  文章找到了证据证明 “存在具有 ReLU 激活和 2n + d 个权重的两层神经网络,其可以表示d维中的大小为n的样本的任何函数”的定理。 这真正展示了对任何数据集来说神经网络的强力(brute-force)能力。

  3.结论

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容