这个数据集包含了来自 X 射线图像的 10.2 万个可疑区域(候选项)的信息,其中每个区域都用 117 个特征进行了描述。这些特征是专有的,而且它们的含义没有被该数据集的创造者(Siemens Healthcare)揭示出来。 乳腺癌信息(Breast Cancer Info) 这个数据集包含了来自 X 射线图像的可疑区域的额外信息。每个样本都提供了对应 Breast Cancer Features 数据集行数的信息(如,标签、病人 ID、图像块相对于整张图像的坐标)。每个病人都有很多样本。对于患癌的病人来说,一些样本是积极的,一些样本是消极的。该样本有 10.2 万个样本。这个数据集有偏置的,其中只有 0.6% 的点是积极的,其余都是消极的。该数据集由 Siemens Healthcare 提供。 CRM Appetency Labels Shared 来自 KDD Cup 2009 客户关系预测挑战赛的标签:
CRM Churn Labels Shared 来自 KDD Cup 2009 客户关系预测挑战赛的标签:
CRM Dataset Shared 来自 KDD Cup 2009 客户关系预测挑战赛的数据:%20-%20orange_small_train.data.zip 该数据集包含来自法国电信公司 Orange 的 5 万个客户。其中每个客户有 230 个匿名的特征,其中 190 个数值特征和 40 个类别特征。这些特征是非常稀疏的。 CRM Upselling Labels Shared 来自 KDD Cup 2009 客户关系预测挑战赛的标签:
能效回归数据(Energy Efficiency Regression data) 基于 12 种不同的建筑外形收集的模拟能量分布。这些建筑按照 8 个特征进行了区分,比如:玻璃窗面积、玻璃窗面积分布和取向。 用途:使用回归(regression)或分类(classification)来预测能效等级,其给出的两种响应是有实际价值的。对于多类别分类,响应变量被取舍到了最接近的整数。 相关研究:Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Repository Irvine, CA:加州大学信息与计算机科学学院 航班延误数据 来自美国交通部收集的 TranStats 数据集中的乘客航班正常率数据。该数据集覆盖 2013 年 4 月到 10 月的统计,在上传到 Azure ML Studio 之前,该数据集处理如下: 该数据集经过过滤只覆盖美国本土的 70 个最繁忙的机场 废除了标记显示延误超过 15 分钟的航班 转航班数据也被消除 选择使用数据目录如下:Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Cancelled 美国 2011 年 10 月飞机到达与离开的记录数据 用途:预测航班延误 相关研究:来自美国交通部的 ?Table_ID=236&DB_Short_Name=On-Time. 森林火灾数据 该数据集包含来自葡萄牙东北部的天气数据,比如温度、湿度指数和风速,结合与森林火灾的记录。 用途:这是一项很难的回归任务,目的是预测森林火灾焚烧的地区。 相关研究: Cortez, P., & Morais, A. (2008). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science [Cortez and Morais, 2007] P. Cortez and A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 – Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. 地址:~pcortez/fires.pdf. 德国信用卡 UCI 数据集 UCI Statlog(德国信用卡)数据集(Statlog+German+Credit+Data))使用了 german.data 文件。 该数据集通过一系列的属性进行表述,根据人进行分类,每个样本表示一个人。此数据集中有 20 个特征,都是数字和类别,以及二元标签(信用风险值)。高信用风险标记为 2,低信用风险标记为 1。将低风险样本误分类为高风险的成本是 1,反之误分类高风险的成本是 5。 IMDB 电影 该数据集包含 Twitter 上评估的有关电影的信息:IMDB 电影 ID、电影名和流派、生产年。该数据集中有 17K 的电影。 鸢尾花两级数据 在模式识别文献中,它可能是最知名的数据集。该数据集相对较小,包含来自三个鸢尾属植物分类的每种花瓣测量的 50 个样本。 用途:从测量中预测 iris 的类别。 相关研究:Fisher, R.A. (1988). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science 电影 Tweets (责任编辑:本港台直播) |