报码:深度学习与XGBoost在小数据集上的测评，你怎么看_本港台直播_J2开奖直播_www.wzatv.cc

本港台开奖现场直播

j2开奖直播报码现场

当前位置: 新闻频道 > IT新闻 >

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

时间:2017-06-25 23:21来源:香港现场开奖作者:118KJ 点击: 次

近来，部分机器学习从业者对深度学习不能训练小数据集这一观点表示怀疑，他们普遍认为如果深度学习经过优良的调参，那么就不会出现过拟合和过训练情况，也就能较好地从小数

近来，部分机器学习从业者对深度学习不能训练小数据集这一观点表示怀疑，他们普遍认为如果深度学习经过优良的调参，那么就不会出现过拟合和过训练情况，也就能较好地从小数据集学习不错的模型。在本文中，Max Brggen 在多个小数据集对神经网络和 XGBoost 进行了对比，并表明 ANN 在小数据集可以得到和 XGBoost 相媲美的结果。

模型源代码：https://gist.github.com/maxberggren/b3ae92b26fd7039ccf22d937d49b1dfd

Andrew Beam 曾展示目前的神经网络方法如果有很好的调参是能够在小数据集上取得好结果的。如果你目前正在使用正则化方法，那么人工神经网络完全有可能在小数据集上取代传统的统计机器学习方法。下面让我们在基准数据集上比较这些算法。

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

先从从 iris 数据集开始，因为我们可以很容易地使用 pandas read_csv 函数从网上读取数据集。

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

注意，上述代码块的数据集读取地址（显示不全）为：

「https://gist.githubusercontent.com/curran/a08a1080b88344b0c8a7/raw/d546eaee765268bf2f487608c537c05e22e4b221/iris.csv」

该数据集只有三个类别共计 150 个数据点，它是一个很小的数据集。

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

我们可以从 Pandas 数据框架中创建特征矩阵 X 和目标向量 y。因为 ANN 的特征矩阵需要归一化，所以先要进行最小最大缩放。

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

我们将数据集分割为训练集和测试集。

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

导入一些 keras 库的函数（如果没有安装 keras，可以键入 pip install keras）。

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

设置神经网络的深度为 3 层，每一层的宽度为 128 个神经元。这并没有什么特别的，甚至都不一定能算做深度学习，但该网络在每层之间使用了一些 dropout 帮助减少过拟合现象。

Adam 优化方法的学习率可能在其他数据集还需要微调，但是在该数据集保留 0.001 效果就已经十分不错了。

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

EarlyStopping 函数在验证集精度不再提高的时候可以帮助我们终止训练，同样这也会帮助我们避免过拟合。同时我们还需要在出现过拟合之前保存模型，ModelCheckpoints 函数可以让我们在验证集精度出现下降前保存最优模型。

报码:深度学习与XGBoost在小数据集上的测评，<a href= atv，你怎么看" src="http://www.wzatv.cc/atv/uploads/allimg/170625/2331209155_0.jpg" >

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

现在我们可以在测试集上评估性能，下面的混淆矩阵展示了测试集所有预测值和真实值的分布。

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

报码:深度学习与XGBoost在小数据集上的测评，<a href= atv直播，你怎么看" src="http://www.wzatv.cc/atv/uploads/allimg/170625/2329354014_0.jpg" >

实际上该结果极其优秀。接下来我们通过 sklearn API 构建 xgboost(conda install xgboost)模型。

寻找优良的超参数对贝叶斯方法来说是很好的任务，它能在没有任何梯度的情况下以有效的方式评估替代方案。而像 GridSearch 那样的方法需要大量的时间，因此我们反而给它一个参数空间和「预算」。所以该方法会在这些条件约束下最有效地评估 XGBoost 超参数。

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

因此我们使用的是 skopt (pip install scikit-optimize)。我们给定 50 次迭代来挖掘超参数空间。

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

Best accuracy score = 0.96

Best parameters = { 'colsample_bytree': 1.0,

'learning_rate': 0.10000000000000001, 'min_child_weight': 5,

'n_estimators': 45, 'subsample': 1, 'max_depth': 5}

下面我们需要固定这些超参数并在测试集上评估模型，该测试集和 Keras 使用的测试集是一样的。

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

报码:深度学习与XGBoost在小数据集上的测评，你怎么看

(责任编辑：本港台直播)

顶一下

(0)

0%

踩一下

(0)

0%

------分隔线----------------------------

上一篇：报码:微软的增强现实对于个人程序员、设计师乃至企
下一篇：报码:深度学习开发环境调查结果公布，你的配置是这

栏目列表

推荐内容

码报:央行要求支付宝纠正支付宝年
（原标题：支付宝年度账单默认勾选引央行关注，曾要求其纠正...
紫光控股继续增持联想控股 22日再
啪啪啪讯12月22日，紫光控股发布公告称，于12月22日进一步购入...
wzatv:Alphabet董事长明年1月卸任：他
（原标题：谷歌母公司执行董事长施密特明年1月卸任：他给谷歌...
码报:和创金服房平：再过三五年会
啪啪啪讯12月21日消息，近日和创金服CEO房平在接受啪啪啪采访中...
码报:外媒：腾讯悄悄打造中国迪斯
（原标题：China's Tencent Has Quietly Built An Entertainment Empire That Wes...
wzatv:CBNData消费大数据报告：90后是
啪啪啪讯 12月20日消息，今日CBNData根据过去一年里对中国大消费...

热点内容