本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【图】资源 | 微软官方整理:用于Azure机器学习的免费数据集(3)

时间:2016-10-22 21:04来源:香港现场开奖 作者:本港台直播 点击:
该数据集是 Movie Tweeting 数据集的扩展版本,此数据集有 170K 的电影评估信息,从结构较好的 tweets 中提取。每个示例代表一条 tweet,数据元组:用户、IM

该数据集是 Movie Tweeting 数据集的扩展版本,此数据集有 170K 的电影评估信息,从结构较好的 tweets 中提取。每个示例代表一条 tweet,数据元组:用户、IMDB 电影 ID、评估等级、时间标记、该 tweet 的点赞人数、转推人数。该数据集由 A. Said, S. Dooms, B. Loni and D. Tikk for Recommender Systems Challenge 2014 供用。

汽车MPG数据

该数据集是由卡耐基梅陇大学 StatLib 库提供的数据集的修正版本,此数据集曾被 1983 年 American Statistical Association Exposition 使用。

该数据列出了每加仑汽油各种类型机动车的消耗情况,同时也包含气缸个数、引擎排放量、马力、总重量和加速这样的信息。

通途:基于 3 个多值离散属性和 5 个连续属性预测节约燃油。

相关研究:StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science

Pima 印第安人糖尿病二进制分类数据集

来自 National Institute of Diabetes and Digestive and Kidney Diseases 数据集的一个子集。该数据集经过过滤只关注 Pima Indian 遗传的女性病人。数据包括血糖、胰岛素水平、生活方式这样的医疗数据。

用途:预测该主体是否有糖尿病(二分类)

相关研究: Sigillito, V. (1990). UCI Machine Learning Repository」. Irvine, CA: University of California, School of Information and Computer Science

餐馆消费者数据集

一系列关于消费者的元数据,包括人口统计学和喜好。

用途:使用该数据集,结合其他两个餐饮数据集,可训练并测试推荐系统。

相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.

Restaurant feature data

一堆关于餐馆和餐馆特征的元数据,比如食物类型、餐厅风格、位置。

用途:使用该数据集,结合其他两个餐饮数据集,可训练并预测推荐系统。

相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.

餐馆评分数据集

包含用户给出的对餐馆的评价,等级从 0 到 2 划分。

用途:使用该数据集,结合其他两个餐饮数据集,可训练并预测推荐系统。

相关研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.

钢退火多级数据集(Steel Annealing multi-class)

该数据集包含一系列来自钢材退火实验的记录,数据包含测试钢材类型的物理属性(宽度、厚度、类型(线圈、薄片等))。

用途:预测任何二数类属性:硬度或强度,也可用于分析属性间的关联。钢材等级划分遵循一定标准,由 SAE 和其他组织定义。你可以寻求特定的等级,并了解所需要的值。

相关研究:Sterling, D. & Buntine, W., (NA). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science

望远镜数据集

高能量伽马粒子爆发的记录,也带有背景噪声,都使用 Monte Carlo 处理方法模拟。

模拟的目的是改进地表大气 Cherenkov 射线望远镜的准确率,使用统计方法微分想要信号(Cherenkov radiation showers)和背景噪声。

该数据已经过了预处理,以创建一个以指向相机中心方向为长轴的延长的聚类(elongated cluster)。这个椭圆的特征(通常被称为 Hillas 参数)是可以用于判别(discrimination)的图像参数中的一部分。

用途:预测 shower 表征信号或背景噪声的天气图像。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容