该数据集是 Movie Tweeting 数据集的扩展版本,此数据集有 170K 的电影评估信息,从结构较好的 tweets 中提取。每个示例代表一条 tweet,数据元组:用户、IMDB 电影 ID、评估等级、时间标记、该 tweet 的点赞人数、转推人数。该数据集由 A. Said, S. Dooms, B. Loni and D. Tikk for Recommender Systems Challenge 2014 供用。 汽车MPG数据 该数据集是由卡耐基梅陇大学 StatLib 库提供的数据集的修正版本,此数据集曾被 1983 年 American Statistical Association Exposition 使用。 该数据列出了每加仑汽油各种类型机动车的消耗情况,同时也包含气缸个数、引擎排放量、马力、总重量和加速这样的信息。 通途:基于 3 个多值离散属性和 5 个连续属性预测节约燃油。 相关研究:StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science Pima 印第安人糖尿病二进制分类数据集 来自 National Institute of Diabetes and Digestive and Kidney Diseases 数据集的一个子集。该数据集经过过滤只关注 Pima Indian 遗传的女性病人。数据包括血糖、胰岛素水平、生活方式这样的医疗数据。 用途:预测该主体是否有糖尿病(二分类) 相关研究: Sigillito, V. (1990). UCI Machine Learning Repository」. Irvine, CA: University of California, School of Information and Computer Science 餐馆消费者数据集 一系列关于消费者的元数据,包括人口统计学和喜好。 用途:使用该数据集,结合其他两个餐饮数据集,可训练并测试推荐系统。 相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science. Restaurant feature data 一堆关于餐馆和餐馆特征的元数据,比如食物类型、餐厅风格、位置。 用途:使用该数据集,结合其他两个餐饮数据集,可训练并预测推荐系统。 相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science. 餐馆评分数据集 包含用户给出的对餐馆的评价,等级从 0 到 2 划分。 用途:使用该数据集,结合其他两个餐饮数据集,可训练并预测推荐系统。 相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science. 钢退火多级数据集(Steel Annealing multi-class) 该数据集包含一系列来自钢材退火实验的记录,数据包含测试钢材类型的物理属性(宽度、厚度、类型(线圈、薄片等))。 用途:预测任何二数类属性:硬度或强度,也可用于分析属性间的关联。钢材等级划分遵循一定标准,由 SAE 和其他组织定义。你可以寻求特定的等级,并了解所需要的值。 相关研究:Sterling, D. & Buntine, W., (NA). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science 望远镜数据集 高能量伽马粒子爆发的记录,也带有背景噪声,都使用 Monte Carlo 处理方法模拟。 模拟的目的是改进地表大气 Cherenkov 射线望远镜的准确率,使用统计方法微分想要信号(Cherenkov radiation showers)和背景噪声。 该数据已经过了预处理,以创建一个以指向相机中心方向为长轴的延长的聚类(elongated cluster)。这个椭圆的特征(通常被称为 Hillas 参数)是可以用于判别(discrimination)的图像参数中的一部分。 用途:预测 shower 表征信号或背景噪声的天气图像。 (责任编辑:本港台直播) |