对我来说最后一句是关键。我们在模型中做出的某些选择清楚的表明了模型泛化能力的差异(否则所有的架构应该具有相同的泛化能力)。在数据中没有其他真实信号时,世界上泛化能力最好的网络依旧需要回顾一下。所以我们可能需要一种方法去挑选数据集中存在的真正泛化能力,以及给定模型架构在捕捉这种潜力的效率。一个简单方法是用不同架构的模型训练在同样的数据上训练(当然我们一直是这样做的)。这依然不能帮助我们解决原始问题,但是可以理解为什么一些模型的泛化能力比其他模型好。 用正则化弥补? 模型架构本身显然不能充分正规化(不能防止过拟合/记忆),但是常用的正则化技术呢? 如下我们显示采用一些正则化技术,例如权重衰减 、dropout、增加一些数据都足以解释神经网络的泛化误差:采用正则化可能会提供模型的泛化能力,但这并不是必须的也不足以控制泛化误差。
显性正则化似乎更多的是一个调整参数,有助于提高泛化能力,但是其缺失也并不意味着泛化误差。当然并非所有能够拟合训练数据的模型都能很好地泛化。本文分析中的有趣一面是,我们仅仅通过使用梯度下降过程就获得了一定量的正则化: 我们分析 SGD 如何作为一个隐性正则器。对于线性模型,SGD 经常收敛到一个小规模的解决方案。因此算法本身隐性地正则化了解决方案,尽管这个无法解释为什么某些架构比其他架构泛化能力更好,但却表明需要使用更多的研究来了解 SGD 的内在属性。 机器学习模型的有效容量 考虑样本大小为 n 的神经网络情况,如果网络有一个参数 p,p 比 n 更大,然后尽管一个简单的两层神经网络可以表示输入样本的任何函数。作者证明(在附录中)以下定律: 存在一个带有 ReLU 激活函数、有 2n+d 个权重的二层神经网络,可以表示大小为 n*d 的样本上的任何函数。 所以这一切都偏离我们了? 这种情况对统计学习提出了一个概念上的挑战,因为传统的模型复杂度度量很难解释大型人工神经网络的泛化能力。我们的任务在这个巨大的模型下,且还没有发现简单准确的度量方法。从我们的实验得出的另一个解释是:即使是模型的泛化能力不好,通过经验优化模型也是比较容易的。这表明了优化为什么容易的经验性原因,肯定不同于真正的泛化原因。 更多有关GMIS 2017大会的内容,请点击「阅读原文」查看机器之心官网 GMIS 专题↓↓↓ (责任编辑:本港台直播) |