它是一个二元分类问题。每个类的观察值数量不均等。一共有 768 个观察值,8个输入变量和1个输出变量。缺失值通常用零值编码。变量名如下: 怀孕次数 口服葡萄糖耐受试验中,2小时的血浆葡萄糖浓度。 舒张压(mm Hg) 三头肌皮肤褶层厚度(mm) 2小时血清胰岛素含量(μU/ ml) 体重指数(体重,kg /(身高,m)^ 2) 糖尿病家族史 年龄(岁) 类变量(0 或 1) 预测最普遍类的基准性能是约 65% 的分类准确率,最佳结果达到约 77% 的分类准确率。 数据集前5行的示例如下:
下载地址: 声纳数据集 声纳数据集(Sonar Dataset )涉及预测根据给定声纳从不同角度返回的强度预测目标物体是岩石还是矿井。 它是一个二元分类问题。每个类的观察值数量不均等。一共有208个观察值,60个输入变量和1个输出变量。变量名如下: 从不同角度返回的声纳 ... ... 类(M为矿井,R为岩石) 预测最普遍类的基准性能是约 53% 的分类准确率,最佳结果达到约 88% 的分类准确率。 该数据集前5行的示例如下:
下载地址: 钞票数据集 钞票数据集(Banknote Dataset)涉及根据给定钞票的数个度量的照片预测是真钞还是假钞。 它是一个二元分类问题。每个类的观测值数量不均等。一共有 1372 个观察值,4个输入变量和1个输出变量。变量名如下: 小波变换图像(连续) 小波偏斜变换图像(连续) 小波峰度变换图像(连续) 图像熵(连续)。 类(0 为真钞,直播,1 为假钞) 预测最普遍类的基准性能是约 50% 的分类准确率。 该数据集前5行的示例如下:
下载地址:t.cn/Rf8GdQo 鸢尾花卉数据集 鸢尾花卉数据集(Iris Flowers Dataset )涉及根据鸢尾花的测量数据预测花卉品种。 它是一个多类分类问题。每个类的观察值数量是均等的。一共有 150 个观察值,4个输入变量和1个输出变量。变量名如下: 萼片长度(cm) 萼片宽度(cm) 花瓣长度(cm) 花瓣宽度(cm) 类(Iris Setosa,Iris Versicolour,Iris Virginica) 预测最普遍类的基准性能是约 26% 的分类准确率。 该数据集前5行的示例如下:
下载地址:t.cn/Rf8GeUq 鲍鱼数据集 鲍鱼数据集(Abalone Dataset)涉及根据鲍鱼个体的测量数据来预测鲍鱼的年龄(环的数量)。 它是一个多类分类(multi-class classification)问题,但也可以作为回归问题。每个类的观察值数量不均等。该数据集有 4177 个观察值,8个输入变量和1个输出变量。 变量名如下: 性别(M,F,I) 长度 直径 高度 总重量 剥壳重量 内脏重量 壳重 环的数量 预测最普遍类的基准性能是约 16% 的分类准确率,预测平均值的基准性能的均方根误差(RMSE)是约 3.2 个环。 该数据集前5行的示例如下:
下载地址:t.cn/Rf8GDdu 电离层数据集 电离层数据集(Ionosphere Dataset)需要根据给定的电离层中的自由电子的雷达回波预测大气结构。 它是一个二元分类问题。每个类的观察值数量不均等,一共有 351 个观察值,34 个输入变量和1个输出变量。变量名如下: 1 17对雷达回波数据。 2 ... ... 3 类(g 表示好,b 表示坏)。 预测最普遍类的基准性能是约 64% 的分类准确率,最佳结果达到约 94% 的分类准确率。 该数据集前5行的示例如下:
下载地址:http://t.cn/Rf8GFY4 小麦种子数据集 小麦种子数据集(Wheat Seeds Dataset)涉及对不同品种的小麦种子进行预测,给定的是种子的计量数据。 它是一个二元分类问题。每个类的观察值是均等的,一共 210 个观察值,7个输入变量和1个输出变量。变量名如下: 区域 周长 压实度 籽粒长度 籽粒宽度 不对称系数 籽粒腹沟长度 类(1,2,3) 预测最普遍类的基准性能是约 28% 的分类准确率。 数据集前5行的示例如下:
下载地址: 波士顿房价数据集 波士顿房价数据集(Boston House Price Dataset)包含对房价的预测,以千美元计,给定的条件是房屋及其相邻房屋的详细信息。 该数据集是一个回归问题。每个类的观察值数量是均等的,共有 506 个观察,13 个输入变量和1个输出变量。变量名如下: CRIM:城镇人均犯罪率。 ZN:住宅用地超过 25000 sq.ft. 的比例。 INDUS:城镇非零售商用土地的比例。 CHAS:查理斯河空变量(如果边界是河流,则为1;否则为0)。 NOX:一氧化氮浓度。 RM:住宅平均房间数。 AGE:1940 年之前建成的自用房屋比例。 DIS:到波士顿五个中心区域的加权距离。 RAD:辐射性公路的接近指数。 TAX:每 10000 美元的全值财产税率。 PTRATIO:城镇师生比例。 B:1000(Bk-0.63)^ 2,其中 Bk 指代城镇中黑人的比例。 LSTAT:人口中地位低下者的比例。 MEDV:自住房的平均房价,以千美元计。 预测平均值的基准性能的均方根误差(RMSE)是约 9.21 千美元。 数据集前5行的示例如下:
下载地址: 时间序列数据集 (责任编辑:本港台直播) |