编译:刘小芹 新智元启动新一轮大招聘:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j[email protected] HR 微信:13552313024 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。 加盟新智元,与人工智能业界领袖携手改变世界。 【新智元导读】学好机器学习的关键是用许多不同的数据集来实践。本文介绍了10个最受欢迎的标准机器学习数据集和7个时间序列数据集,既有回归问题也有分类问题,并提供了各数据集输入输出的变量名称和基准性能,以及下载地址,可以用作练习的资源。 学好机器学习的关键是用许多不同的数据集来练习。因为对不同的问题,需要有不同的数据准备和建模方法。本文介绍了10个最受欢迎的标准机器学习数据集,可以用作练习的资源。 每个数据集均按照一定的格式介绍,以使读者相对容易比较,为他们的特定练习任务选择数据集或建模方法。 格式: 名称:如何引用数据集 问题类型:是回归问题还是分类问题 输入和输出:输入和输出特征的数量和名称 性能:使用零规则算法(Zero Rule Algorithm)的基准性能比较,atv,以及已知的最佳性能 示例:原始数据前5行的快照 链接:下载数据集及了解更多的链接 标准数据集 下面是本文将介绍的 10 个数据集的列表。每个数据集都不大,能够适应内存或使用电子表格查看。所有数据集都由表格数据组成,并且没有(显式的)缺失值。 瑞典汽车保险数据集 葡萄酒质量数据集 比马印第安人糖尿病数据集 声纳数据集 钞票数据集 鸢尾花卉数据集 鲍鱼数据集 电离层数据集 小麦种子数据集 波士顿房价数据集 瑞典汽车保险数据集 瑞典汽车保险数据集( Swedish Auto Insurance Dataset)包含了对所有索赔要求的总赔付预测,以千瑞典克朗计,给定的条件是索赔要求总数。 这是一个回归问题。它由 63 个观察值组成,包括1个输入变量和1个输出变量。变量名分别是: 索赔要求数量 对所有索赔的总赔付,以千瑞典克朗计 预测平均值的基准性能的均方根误差(RMSE)约为 72.251 千克朗。 前5行的示例如下:
下面是整个数据集的散点图:
下载地址: 葡萄酒质量数据集 葡萄酒质量数据集(Wine Quality Dataset )涉及根据每种葡萄酒的化学度量值来预测白葡萄酒的质量。 它是一个多类分类问题,但也可以定义为回归问题。每个类的观察值数量不均等。一共有 4898个观察值,11个输入变量和一个输出变量。变量名如下: 非挥发性酸度 挥发性酸度 柠檬酸 残留糖 氯化物 游离二氧化硫 总二氧化硫 浓度 pH值 硫酸盐 酒精度 质量(得分在 0 和 10 之间) 预测平均值的基准性能的均方根误差(RMSE)为 0.148 的质量分数。 数据集前5行的示例如下:
比马印第安人糖尿病数据集 比马印第安人糖尿病数据集(Pima Indians Diabetes Dataset)涉及根据医疗记录预测比马印第安人5年内糖尿病的发病情况。 (责任编辑:本港台直播) |