本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争(4)

时间:2017-02-19 18:56来源:报码现场 作者:本港台直播 点击:
机器学习的传统观基于简约(parsimony)。 在几乎任何公式中,学习都归结为从数据中提取低复杂度的模式。 暴力记忆通常不被认为是一种有效的学习形式

  机器学习的传统观基于简约(parsimony)。 在几乎任何公式中,学习都归结为从数据中提取低复杂度的模式。 暴力记忆通常不被认为是一种有效的学习形式。 同时,可能纯粹的记忆在某种程度上是一个有效的解决自然任务中问题的策略。

  我们的结果挑战了传统的对机器学习的认识,展示了许多成功的神经网络容易拥有纯粹记忆的有效能力。这使我们相信,这些模型在处理它们用来训练解决的问题时可能很好地利用了大量的记忆。很可能传统意义上的学习仍然部分地发生,但它似乎与大量的记忆密切相关。因此,传统方法不太适合推理为什么这些模型能够很好的泛化。

  我们认为理解神经网络需要重新思考泛化。 我们希望我们的论文是一个开始,通过质疑传统观点,指向未解决的难题。

  Bengio 实验室观点:深度网络不通过记忆学习

  

wzatv:【j2开奖】【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争

摘要

  我们使用经验验证法论证,深度神经网络(DNN)尽管有着过度表达的模型架构(overly-expressive model architectures),但不会通过“记忆”训练数据实现其良好的性能。实际上,深度神经网络学习的是一种简单的、切合有限数据样本的可用假设。为了支持这一观点,我们确立神经网络在学习噪声与自然数据集时存在定性的差异,显示出:(1)需要更多的容量拟合噪声;(2)随机标记的收敛时间更长,但随机输入的收敛时间更短;(3)在实际数据样本上训练的 DNN 学习的函数,比用噪声数据训练的更简单,这种简单的评估标准是收敛时损失函数的锐度。最后,我们证明对于适当调整的显式正则化(如 dropout),可以降低 DNN 在噪声数据集上的训练性能,而不影响对实际数据的泛化。

  1. 引言

  泛化(generalization)测量的是在给定数据集上训练过的模型在此前没有见过的数据上运行的能力,这些未见过的数据与训练数据有着相同的底层分布。传统的泛化观点认为,容量足够大(比如参数的数量大于训练样本的数量)的模型,在表达上足以“记住”每个样本,因而对于训练集是过拟合的,导致在验证时或者说在测试集上泛化较差。但与此观点相反,深度神经网络(DNN)通常含有比训练样本更多的参数,但却展现出良好的泛化性能。Zhang 等人最近的工作(2017,译注:即上面介绍的谷歌论文)发现,传统方法不能解释 DNN 的这种性质。他们展示了 DNN 能够适应随机噪声,并得出结论认为,部分原因是深度网络能够通过“大规模记忆”进行学习。我们认为并非如此,并通过展示学习随机噪声和学习数据之间的不同支持我们的观点。

  “记住”一个训练集是什么意思?一种解释是,对于每个训练样本,DNN 都能实现完美的分类精度(即训练误差接近 0)。这看上去是那么回事,但并不完全——直观地讲,“记住”数据的算法应该在某种程度上仅限于训练集,就像查找表一样。而这又引出了另一种解释;零训练误差和随机泛化误差。通过这个定义,DNN 并不会记忆。

  然而,这个定义不涉及学习的过程——还是直观地讲,我们可能不会“信任”使用泛化误差测量得出的结果,因为我们会认为如果算法像一个查找表那样学习(这个查找表恰好具有良好的泛化性能),我们仍然会认为信息是“记住”的,而不是学会的。这又使我们得出了对记忆的第三个、模糊的定义:不是在学习模式。我们猜,这实际上是大多数人使用术语“暴力记忆”、“纯粹记忆”或“大规模记忆”时,想要表达的意思。

  但是,我们表明即便使用这种定义,DNN 仍然不会“记忆”真实数据。模型的理论容量要成为有效容量,受两大因素的限制:数据集大小和训练时间(更新)。我们表明,在有效容量固定的情况下,j2直播,深度网络对于随机数据和真实数据,所学到的假设是不同的——真实数据的会更简单。

  2. 试验和讨论

  在试验和讨论环节,研究人员用噪声(随机标签或i.i.d)替换数据集的一些部分。然后做高斯噪声输入(均值和方差匹配实际数据)。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容