wzatv:「过度拟合」为什么总是被误用？你需要一篇更_本港台直播_J2开奖直播

「过度拟合」为什么总是被误用？你需要一篇更直观的说明

2017-08-18 17:50 来源:机器人圈

原标题：「过度拟合」为什么总是被误用？你需要一篇更直观的说明

图：pixabay

原文来源：Memo's Island

作者：Mehmet Süzen

「机器人圈」编译：嗯~阿童木呀、多啦A亮

关于过度拟合（overfitting）的概念，业内人士观点各异。它似乎是一种流传甚广的说法，在数据科学甚至相关领域中传播着这样一种坊间说法，具体表述如下：

应用交叉验证可防止过度拟合和良好的样本外性能、未知数据中的泛化误差低，从而表明没有过度拟合。

这种说法当然是不对的：交叉验证并不能阻止你的模型过度拟合，而且良好的样本外性能也不能保证一个没有过度拟合的模型。实际上，人们在这个论述中经常提到的一个角度叫做过度训练（overtraining）。不幸的是，这个说法不仅在业界内传播，还在一些学术论文中广泛流传。这可能是术语上的混淆。但是，如果我们在交流实验成果时，能把术语说得正确，并清楚地说明我们所说的“过度拟合”指代的是什么的话，这将是一种很好的做法。

目标：针对这一目标，在本文中我们将给出一种直观的说明：为什么模型验证作为模型拟合的泛化误差和过度拟合的检测不能在单个模型上同时解决。在对其基本概念做简要介绍后，我们将在具体的示例工作流中了解过拟合、过度训练和典型的最终模型构建阶段。我们将避免提及贝叶斯解释和正则化，会在回归和交叉验证中展开讨论。正则化由于其数学属性而具有不同的分支，且先验分布对贝叶斯统计具有不同的影响。

贝叶斯大师安德鲁•格尔曼（Andrew Gelman）最近提出的一个关于“什么是过度拟合”的问题。当我看到业内人士对过度拟合的概念混淆不分，且在最近持续发表的数据科学相关的技术文章中，甚至在一些学术论文中都在宣称上述说法，我感到非常的沮丧，而这也是本文发表的原因之一。

在监督学习中我们需要满足什么条件？在数学中，最基本的任务之一就是找到一个函数的解：如果我们将自己限制在$n$维的实数范围内，并且我们兴趣域将是$\mathbb{R}^{n}$。现在想象一下，定义域$x_{i}$中的$p$点集形成一个数据集，这实际上是一个函数的部分解。建模的主要目的是找到对数据集的解释，这意味着我们需要确定未知的$m$参数，$a \in \mathbb{R}^{m}$。（请注意，非参数模型并不意味着没有参数。）从数学上讲，这其实是一个函数，如前所述，$f(x, a)$。这种建模通常称为回归、插值或监督学习，当然具体是哪种取决于你所阅读的文献。这是一个逆问题的形式，虽然我们不知道参数，但我们有关于变量的部分信息。这里的主要问题是非适定性（ill-posedness），即意味着解决方案不是很好。省略公理技术细节，实际问题是我们可以找到许多$f(x, a)$ 函数或模型，来解释数据集。因此，我们寻求以下两个概念，以满足我们的模型解决方案，$f(x, a)=0$。

1.泛化：模型不应该依赖于数据集。此步骤称为模型验证。

2.最小复杂性：模型应该服从剃刀原理（Occam's razor）或简约定律（principle of parsimony）。此步骤称为模型选择（model selection）。

图1：监督学习中模型验证和选择的工作流程。

模型的泛化可以通过拟合优度（Goodness of Fit）来衡量。它本质上告诉我们所选择的模型（所选函数）解释数据集的性能好坏。要找到最小复杂性的模型，就需要与另一个模型进行比较。

到目前为止，我们还没有指定一种技术方法来检查一个模型是否能够被泛化和挑选为最佳模型。不幸的是，没有一种独特的方法能够做到这两件事，这是一项需要数据科学家或行业从业者的任务：需要人为判断。

模型验证：一种检查模型是否被泛化的示例方法是给出一个度量：一个它对数据集解释性能好坏的度量。我们在模型验证中的任务是评估模型误差。例如，j2直播，均方根误差（RMDS）是我们可以使用的一个度量。如果RMSD很低，可以说我们的模型拟合是好的，理想情况下应该接近于零。但是，如果我们使用相同的数据集来测量拟合优度，那么它就不能进行良好的泛化。我们可以使用不同的数据集，特别是样本外数据集，尽可能地验证这一点，例如，所谓的“hold out method”。外样本是一种很奇特的方法，可以保证我们没有使用相同的数据集来找到 $a$的参数值。一种改进的方法是交叉验证。我们将数据集分成$k$个分区，我们获得$k$个RMDS的值，以进行平均分配。这在图1中可以进行总结。请注意，开奖，同一模型的不同参数化并不构成一个不同的模型。

(责任编辑：本港台直播)