本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【j2开奖】【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争

时间:2017-02-19 18:56来源:报码现场 作者:本港台直播 点击:
【 新智元导读 】 一场或许有关深度学习本质的争论正在火热进行中。去年底,MIT、DeepMind 和谷歌大脑合著的论文《理解深度学习需要重新思考泛化》引发热论。论文指出,经典统计

  新智元导读一场或许有关深度学习本质的争论正在火热进行中。去年底,MIT、DeepMind 和谷歌大脑合著的论文《理解深度学习需要重新思考泛化》引发热论。论文指出,经典统计学习理论和正则化策略不能解释小的泛化误差为何发生,神经网络实现高性能泛化的真正原因是“能够记忆数据”。但最近,Bengio 实验室的一篇 ICLR-17 论文提出了反对观点,认为神经网络并不通过记忆学习。更好的泛化理论能让我们设计出比 dropout、bachnorm,l2 等更好的正则化方法,从而带来更好的深度学习。神经网络的泛化能力究竟从何而来?请在文末留下你的看法。【进入新智元公众号,在对话框输入“170219”下载论文】

  Bengio 实验室日前发表了一篇论文,这篇论文将作为 ICLR 2017 一场研讨会的主题:

  “深度网络不通过记忆学习”。

  为什么今天要说这篇论文?

  因为它的观点与另一篇 ICLR 论文、与此前谷歌大脑的《理解深度学习需要重新思考泛化》相互矛盾。那篇论文由 MIT 的 Chiyuan Zhang 为第一作者,合著人当中不乏大牛的名字,比如谷歌大脑的 Samy Bengio(是的,他就是我们常说的那个 Bengio 的弟弟,头图中左边的那位——看图你还不觉得他们两人是兄弟?),以及之前在谷歌大脑工作,现在是 DeepMind 研究员的 Oriol Vinyals。

  值得一提的是,《理解深度学习需要重新思考泛化》那篇文章发布后,在学界激起了热烈的讨论和广泛的关注——根据 Twitter 上的讨论,这篇论文的 ICLR 得分相当之高。

  有人更是将其称为“势必颠覆我们对深度学习理解”的文章。

  在“重新思考泛化”那篇文章里,研究人员通过实验发现:

神经网络的有效容量对于整个数据集的暴力记忆是足够大的。

就算优化的是随机标签,这个过程也很容易。事实上,与对真实标签的训练相比,随机标签的训练时间只增加了一个小的恒定因子。

对标签进行随机化只是一种数据变换,神经网络要学习的问题的所有其他属性不变。

  实际上,作者引入了两个新的定义——关于“显式”和“隐含”正则化来讨论深度学习。现在,针对这两种正则化,Bengio 实验室的论文提出了完全相反观点。

  两篇重磅论文,究竟谁对谁错——或者,深度神经网络强大泛化能力的真正原因是什么?

  让我们先从MIT、谷歌大脑与 DeepMind 合作的《要理解深度神经网络需要重新思考泛化》看起。

  谷歌重磅论文:理解深度学习,需要重新思考泛化问题

  

wzatv:【j2开奖】【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争

提要

  尽管体积巨大,成功的深度人工神经网络在训练和测试性能之间可以展现出非常小的差异。过去一般将其归功于泛化误差小,无论是对模型谱系的特点还是对于训练中使用的正则技术来说。

  通过广泛的系统的实验,我们展示了传统方法无法解释为什么大规模神经网络在实践中泛化表现好。 具体来说,我们的实验证明了用随机梯度方法训练的、用于图像分类的最先进的卷积网络很容易拟合训练数据的随机标记。这种现象本质上不受显式正则化影响,即使我们通过完全非结构化随机噪声来替换真实图像,也会发生这种现象。我们用一个理论结构证实了这些实验结果,表明只要参数的数量超过实践中通常的数据点的数量,简单的depth 2神经网络就已经具有完美的有限样本表达率(finite sample expressivity)。

  我们通过与传统模型进行比较来解释我们的实验结果。

  1. 概述

  深度人工神经网络通常具有比它们被训练的样本数量多得多的可训练模型参数。 尽管如此,这些模型中的一部分仍显示出非常小的生成误差,即“训练误差”和“测试误差”之间的差异。 同时,得到泛化不好的自然模型架构也肯定很容易 。 那么,是什么造成了泛化好与不好之间的差别? 对这个问题的解答不仅有助于使神经网络更易于理解,而且还可以引导更富原则和更可靠的模型架构设计。

  为了回答这样的问题,统计学习理论已经提出了能够控制泛化误差的许多不同的复杂性度量方法(complexity measures)。 包括VC dimension (Vapnik, 1998), Rademacher complexity (Bartlett & Mendelson, 2003), and uniform stability (Mukherjee et al., 2002; Bousquet & Elisseeff, 2002; Poggio et al., 2004)。 此外,当参数的数量巨大时,理论表明需要某种形式的正则化以确保小的泛化误差。 如果伴有early stopping的情况,正则化也可以是隐含的。

  我们的贡献

  在这项工作中,通过论证它不能区分具有完全不同泛化性能的神经网络,我们质疑了对于泛化的传统认识 。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容