码报:【j2开奖】解读 | ICLR(2)_本港台直播_J2开奖直播

对我来说最后一句是关键。我们在模型中做出的某些选择清楚的表明了模型泛化能力的差异（否则所有的架构应该具有相同的泛化能力）。在数据中没有其他真实信号时，世界上泛化能力最好的网络依旧需要回顾一下。所以我们可能需要一种方法去挑选数据集中存在的真正泛化能力，以及给定模型架构在捕捉这种潜力的效率。一个简单方法是用不同架构的模型训练在同样的数据上训练（当然我们一直是这样做的）。这依然不能帮助我们解决原始问题，但是可以理解为什么一些模型的泛化能力比其他模型好。

用正则化弥补？

模型架构本身显然不能充分正规化（不能防止过拟合/记忆），但是常用的正则化技术呢？

如下我们显示采用一些正则化技术，例如权重衰减、dropout、增加一些数据都足以解释神经网络的泛化误差：采用正则化可能会提供模型的泛化能力，但这并不是必须的也不足以控制泛化误差。

码报:【j2开奖】解读 | ICLR

显性正则化似乎更多的是一个调整参数，有助于提高泛化能力，但是其缺失也并不意味着泛化误差。当然并非所有能够拟合训练数据的模型都能很好地泛化。本文分析中的有趣一面是，我们仅仅通过使用梯度下降过程就获得了一定量的正则化：

我们分析 SGD 如何作为一个隐性正则器。对于线性模型，SGD 经常收敛到一个小规模的解决方案。因此算法本身隐性地正则化了解决方案，尽管这个无法解释为什么某些架构比其他架构泛化能力更好，但却表明需要使用更多的研究来了解 SGD 的内在属性。

机器学习模型的有效容量

考虑样本大小为 n 的神经网络情况，如果网络有一个参数 p，p 比 n 更大，然后尽管一个简单的两层神经网络可以表示输入样本的任何函数。作者证明（在附录中）以下定律：

存在一个带有 ReLU 激活函数、有 2n+d 个权重的二层神经网络，可以表示大小为 n*d 的样本上的任何函数。

所以这一切都偏离我们了？

这种情况对统计学习提出了一个概念上的挑战，因为传统的模型复杂度度量很难解释大型人工神经网络的泛化能力。我们的任务在这个巨大的模型下，且还没有发现简单准确的度量方法。从我们的实验得出的另一个解释是：即使是模型的泛化能力不好，通过经验优化模型也是比较容易的。这表明了优化为什么容易的经验性原因，肯定不同于真正的泛化原因。

　　更多有关GMIS 2017大会的内容，请点击「阅读原文」查看机器之心官网 GMIS 专题↓↓↓

码报:【j2开奖】解读 | ICLR

(责任编辑：本港台直播)