本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:「过度拟合」为什么总是被误用?你需要一篇更(3)

时间:2017-08-19 08:41来源:本港台现场报码 作者:j2开奖直播 点击:
我们可能会认为,在小数据集中,我们可以通过查看测试和训练误差的偏差来辨别差异,这正是Bishop解释之所以出现过度拟合的原因:他指出在小数据集中

我们可能会认为,在小数据集中,我们可以通过查看测试和训练误差的偏差来辨别差异,这正是Bishop解释之所以出现过度拟合的原因:他指出在小数据集中出现过度训练。

哪些已训练模型可以部署?现在的问题是,根据经验,我们找到了具有最小复杂性的最佳性能表现模型。但我们应该在生产中使用哪些已训练的模型呢?

实际上,我们已经在模型选择中创建了模型。在上述情况下,因为我们从g和h中得到了类似的预测能力,我们显然将使用g,它已在图3中的分裂点中训练过。

结论:这里的基本信息是较差的验证性能不能保证过度拟合模型的检测。正如我们在一维中使用合成数据的例子所看到的,过度训练实际上是大多数从业者在使用术语过度拟合时的意思。

展望:随着越来越多的人使用机器学习技术或逆问题,无论是在学术界还是产业界,一些关键的技术概念都会偏离一点,对不同的人来说有不同的定义和意义,因为人们学习一些技术概念不是通过仔细阅读文献,而是从他们的上级经理或资深同事的口头中得知。这造成了实际上错误的方式,或至少在术语中造成了许多混乱。

对于我们所有人来说,我们必须质疑所有的技术概念,并尝试从已发表的科学文献中寻求起源,而不是完全依靠经验丰富的同事的口头解释,这对我们所有人来说都是非常重要的。此外,我们应该强烈地避免嘲笑同事提出的问题,即使这些问题听起来太简单,最后我们不要停止学习,天真的问题可能会对该领域的基本原理产生非常重要的后果。

附录:使用R重现示例

用于生成合成数据、建模步骤和可视化结果的代可以在github [repo](https://github.com/msuzen/memosisland/tree/master/understandingOverfitting)中找到。 在本附录中,我们提供了具有详细注释的R代,但省略了可视化代码,它们在github存储库中可用。

R(GNU S)提供非常强大的公式界面。它可能是统计计算中最先进和最具表现力的公式界面。

图5:部署的模型h和g在测试集上原始资料。

从数据中学习将通过R的lm函数实现。

并且所得到的近似函数可以应用于具有以下辅助函数的新数据集,其中测量RMSD作为性能度量。

我们可以使用runif生成一个模拟数据,如上所述。

为了检测过度训练,我们可以在增加训练大小的情况下将数据分割到不同的位置,并且测量训练数据自身和不可见测试数据的性能。

代码的最后一部分会进行10次交叉验证。

(责任编辑:本港台直播)

顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容