本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:15分钟开启你的机器学习之旅(2)

时间:2017-06-26 04:06来源:天下彩论坛 作者:www.wzatv.cc 点击:
接下来,特征的名称被捕捉到一个单独的变量中,即下面示例的columns_for_features。同时,随机森林分类器被创建并存储在名为classifier 的变量中。 现在,训

接下来,特征的名称被捕捉到一个单独的变量中,即下面示例的columns_for_features。同时,随机森林分类器被创建并存储在名为classifier 的变量中。

现在,训练模型的一切都准备好了。分类器有一个函数 fit,通过训练数据集(train_df)被告知要注意的行,以及训练标签,或已经可用的类别。

wzatv:15分钟开启你的机器学习之旅

所以现在模型可以训练了。它将会确定“features”与“labels”之间的关系,并且只有当features可用时才能确定数据未知的label。

测试模型

使用测试数据集,可以测试模型的执行性能。分类器有一个叫做predict的函数,它从前面准备的test_df数据集传递特征数据。它的输出是一组整数(0, 1, 2),分别表示标签('high','med','low'),即模型预测出的类别。

这很令人兴奋,但意义不是很大。几个快速步骤可以将值解码回文本标签,然后将模型得出的类别与测试数据集中的原始标签进行比较。

wzatv:15分钟开启你的机器学习之旅

下面的表格显示了每个真实的组与预测组的比较。这里显示的是,对于高风险的10个观察值,该模型预测其中9个是高风险,1个是中等风险。对于18个的低风险的观察值,j2直播,该模型的预测完全一致。对于最后10个中等风险的观察值,模型的预测有7项正确,另外3项被错误地预测为高风险。

wzatv:15分钟开启你的机器学习之旅

这是一个不错的结果。几个小步骤,我们就能够创建一个模型,训练它识别数据中的模式,并基于这些训练,模型能够预测新数据的类别。这意味着,你的公司可能不再需要人去人工审查所有的客户资料,你可以简化过程并只关注高风险客户。

在这个case中,分类器预测的是风险水平。同样的技术也可以应用于预测客户流失,机器故障以及其他各种业务问题。

在实际应用中,这个过程要花更多的时间,但这是理解机器学习的基本原理和关键步骤的很好的第一步。

此外,使用预先准备好的数据集有很大好处。在大多数情况下,要做大量的工作将数据变为易于建模的形式之后,机器学习的荣耀才会显现。这些工作包括数据清洗,特征选择,转换和格式化等。

原文:https://www.theregister.co.uk/2017/06/21/15_minutes_in_machine_learning/

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容