本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

报码:【j2开奖】【资源】17个最受欢迎的机器学习应用标准数据集

时间:2016-12-03 14:30来源:118图库 作者:开奖直播现场 点击:
编译:刘小芹 新智元启动新一轮大招聘 :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j [email protected] HR 微信

  编译:刘小芹

  新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

  简历投递:j[email protected]

  HR 微信:13552313024

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和金。

  加盟新智元,与人工智能业界领袖携手改变世界。

  【新智元导读】学好机器学习的关键是用许多不同的数据集来实践。本文介绍了10个最受欢迎标准机器学习数据集和7个时间序列数据集,既有回归问题也有分类问题,并提供了各数据集输入输出的变量名称和基准性能,以及下载地址,可以用作练习的资源

  学好机器学习的关键是用许多不同的数据集来练习。因为对不同的问题,需要有不同的数据准备和建模方法。本文介绍了10个最受欢迎标准机器学习数据集,可以用作练习的资源

  每个数据集均按照一定的格式介绍,以使读者相对容易比较,为他们的特定练习任务选择数据集或建模方法。

  格式:

名称:如何引用数据集

问题类型:是回归问题还是分类问题

输入和输出:输入和输出特征的数量和名称

性能:使用零规则算法(Zero Rule Algorithm)的基准性能比较,atv,以及已知的最佳性能

示例:原始数据前5行的快照

链接:下载数据集及了解更多的链接

  标准数据集

  下面是本文将介绍的 10 个数据集的列表。每个数据集都不大,能够适应内存或使用电子表格查看。所有数据集都由表格数据组成,并且没有(显式的)缺失值。

瑞典汽车保险数据集

葡萄酒质量数据集

比马印第安人糖尿病数据集

声纳数据集

钞票数据集

鸢尾花卉数据集

鲍鱼数据集

电离层数据集

小麦种子数据集

波士顿房价数据集

  瑞典汽车保险数据集

  瑞典汽车保险数据集( Swedish Auto Insurance Dataset)包含了对所有索赔要求的总赔付预测,以千瑞典克朗计,给定的条件是索赔要求总数。

  这是一个回归问题。它由 63 个观察值组成,包括1个输入变量和1个输出变量。变量名分别是:

索赔要求数量

对所有索赔的总赔付,以千瑞典克朗计

  预测平均值的基准性能的均方根误差(RMSE)约为 72.251 千克朗。

  前5行的示例如下:

  

  下面是整个数据集的散点图:

  

报码:【j2开奖】【资源】17个最受欢迎的机器学习应用标准数据集

  下载地址:

  葡萄酒质量数据集

  葡萄酒质量数据集(Wine Quality Dataset )涉及根据每种葡萄酒的化学度量值来预测白葡萄酒的质量。

  它是一个多类分类问题,但也可以定义为回归问题。每个类的观察值数量不均等。一共有 4898个观察值,11个输入变量和一个输出变量。变量名如下:

非挥发性酸度

挥发性酸度

柠檬酸

残留糖

氯化物

游离二氧化硫

总二氧化硫

浓度

pH值

硫酸盐

酒精度

质量(得分在 0 和 10 之间)

  预测平均值的基准性能的均方根误差(RMSE)为 0.148 的质量分数。

  数据集前5行的示例如下:

  

  比马印第安人糖尿病数据集

  比马印第安人糖尿病数据集(Pima Indians Diabetes Dataset)涉及根据医疗记录预测比马印第安人5年内糖尿病的发病情况。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容