wzatv:「过度拟合」为什么总是被误用？你需要一篇更(2)_本港台直播_J2开奖直播

模型选择：当我们试图满足“最小复杂性模型”的时候，对过度拟合的检测就发挥了作用。这是一个比较问题，而且我们需要一个以上的模型来判断一个给定的模型是否过度拟合。道格拉斯•霍金斯（Douglas Hawkins）在他的经典论文《过度拟合问题》中指出：

模型的过度拟合一个公认的关注点。可是几乎没有人意识到过度拟合不是绝对的，而是需要进行比较的。如果一个模型比另一个具有同样拟合度的模型更为复杂的话，那么该模型就是过度拟合的。

其中很重要的一点是，我们对复杂模型的定义是什么？还是我们该如何量化模型的复杂性？不幸的是，同样，没有唯一的方法可以做到。最常用的方法之一是一个模型具有的参数越多它就越复杂。但这只是一种说法，而不是公认的事实。实际上，我们可以采用不同的复杂性度量方法。例如，根据定义来讲，由于$f_{1}(a,x)=ax$和 $f_{2}(a,x)=ax^2$具有相同数量的自由参数，因而具有相同的复杂性，但直观地看，$f_{2}$更复杂，因为它是非线性的。其实有很多基于信息理论的复杂度衡量标准，但是对这些措施的讨论超出了本文的主旨范围。为了演示的目的，我们认为一个具有更多的参数和非线性度的模型是一个更为复杂的模型。

举例说明：我们直观地解释了为什么我们不能同时解决模型验证和判断过度拟合的原因。现在尝试用简单的数据集和模型来证明这一点，但是实质上是包含上述前提的。

通常的过程是从模型中生成合成数据集或模拟数据集，使其作为黄金标准，并使用此数据集构建其他模型。我们使用以下函数形式，根据Bishop的经典文本，但要加上高斯噪声$$ f(x) = sin(2\pi x) + \mathcal{N}(0,0.1) $$。我们生成一个包含100个点的足够大的集合，以避免在Bishop的书中讨论所遇到的样本大小问题，见下图2所示。我们要决定该使用哪两个模型，它们要用于监督学习任务中的数据集。请注意，我们不会在此处讨论贝叶斯解释，因此在强先验假设下，这些模型的等价性不是问题，因为我们使用这个例子可以轻松解释这个概念。$3$ 和 $5$多项式模型，我们称之为$g(x)$ 和 $h(x)$，它们分别用于从模拟数据中学习。$$g(x) = a_{0} + a_{1} x + a_{2} x^{2} + a_{3} x^{3}$$ 和 $$h(x) = b_{0} + b_{1} x + b_{2} x^{2} + b_{3} x^{3} + b_{4} x^{4} + b_{5} x^{5} + b_{6} x^{6}.$$。

图2：模拟数据和数据的非随机部分。

过度训练不是过度拟合：过度训练意味着在学习模型参数时，模型性能会降低从而影响模型构建的客观变量。例如，客观变量可以是神经网络中的训练数据大小或迭代周期。而这在神经网络中更为普遍（见Dayhoff 2011）。在我们的实际例子中，这将表明在使用g（x）建模时测量RMSD的方法。换句话说，找到最佳数量的数据点来训练模型，以便在未见数据上给出更好的性能，参见图3和图4。

图3：在g（x）的数据使用的40％之后，出现过度训练。

图4：在h（x）的数据使用的30％之后，出现过度训练。

过度拟合具有很低的验证误差：我们还可以评估10折交叉验证（10-fold cross-validation）误差，CV-RMSD。对于该采样，g和h分别具有0.13和0.12CV-RMSD。因此，正如我们所看到的那样，会出现这样一种情况，更为复杂的模型通过交叉验证能达到类似的预测能力，因此我们无法通过查看cv-rmsd值或从图4中检测“过度训练”曲线来区分这一过度拟合。我们需要对两个模型进行比较，因此图3和图4都使用了cv-rmsd值。

(责任编辑：本港台直播)