参与:李亚洲、吴攀、杜夏德
要学习怎么使用微软 Azure 机器学习,最重要的是获取样本数据集和进行实验。 在微软,我们有大量的样本数据集可用。这些数据集已经在 Azure Cortana Intelligence Gallery 中的样本模型中得到了应用。 其中一些数据集可以通过 Azure Blob 存储获取,所以可以直接链接到 Azure 机器学习实验;而其它的数据集则是以 CSV 格式提供的。下面列出的这些数据集都将提供直接的链接。你可以通过 Import Data 模型在你的实验中使用这些数据。 这些数据中的剩下数据集都列在模块(module)面板中的 Saved Datasets 下;当你在 ML Studio 中打开或创建一个新实验时,你能在实验画布(experiment canvas)的左边看到它们。你可以直接将这些数据集拖拽到实验画布而将它们应用到你自己的实验中。 以下列出了一些可以免费使用的数据集: 成年人收入普查二分类数据集 一个 1994 年的普查数据库的子数据集,使用了 16 岁以上的工作年龄的成年人的数据,其带有一个经调整之后大于 100 的收入指数。 用途:使用人口学信息对人进行分类,以预测一个人年收入是否超过 5 万美元 相关研究:Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository Irvine, CA: 加州大学信息与计算机科学学院 机场代码数据集(Airport Codes Dataset) 美国机场代码 这个数据集包含每个美国机场,提供了机场 ID 编号和名字,以及机场所在的城市和州。 汽车价格数据(Automobile price data,原始数据) 按厂家和车型分类的汽车信息,其中包括价格、气缸数量和 MPG 等特征,以及保险风险评分(insurance risk score)。 这个风险评分最初是与汽车价格关联的,后来根据实际风险在一个被精算师称为符号化(symboling)的过程中进行了调整。+3 的值表示该汽车是有风险的,而 -3 的值则表示它可能是相当安全的。 用途:使用回归或多变量分类,根据特征预测风险评分。 相关研究:Schlimmer, J.C. (1987). UCI Machine Learning Repository Irvine, CA: 加州大学信息与计算机科学学院 自行车租赁 UCI 数据集(Bike Rental UCI dataset) UCI 自行车租赁数据集基于来自 Capital Bikeshare 公司的真实数据,该公司在华盛顿特区运营着一个自行车租赁网络。 该数据集包含 2011 年和 2012 年每一天和每一小时的数据,总共有 17379 行。每小时租赁自行车数量的范围在 1 到 977 之间。 Bill Gates RGB Image 已转换成 CSV 数据的公开可用的图像文件。 用于转换该图像的代码提供在使用 K-均值聚类模型的颜色量化(Color quantization using K-Means clustering model)的详情页面。 献血数据(Blood donation data) 一个来自台湾新竹市输血服务中心献血数据库的一个子数据集。 献血者数据包括献血频率、总献血次数、自上次献血以来的时间和献血量。 用途:目标是通过分类预测献血者是否在 2007 年 3 月献血,其中 1 表示目标区间内的一个献血者,0 表示没有献血者。 相关研究:Yeh, I.C., (2008). UCI Machine Learning Repository , CA: 加州大学信息与计算机科学学院 亚马逊网站的书评 由宾夕法尼亚大学研究者采集(地址: ~mdredze/datasets/sentiment/)。-参见论文《Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification》,来自 John Blitzer, Mark Dredze, and Fernando Pereira; 计算语言学协会 (ACL), 2007- 原来的数据集包含 97.5 万条包含 1、2、3、4、5 评分的书评。这些书评都是用英语写的,截取自 1997-2007 年这个时间段。这个数据集已经被下采样成了 1 万条书评。 乳腺癌数据(Breast cancer data) 由 Oncology Institute 提供的三个与癌症相关的数据集中的一个,其常常出现在机器学习文献中。结合了来自对大约 300 种组织样本的实验室分析的特征的诊断信息。 用途:基于 9 种属性分类癌症类型,其中一些是线性的,一些是按类别划分的。 相关研究:Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning Repository, CA: 加州大学信息与计算机科学学院 乳腺癌特征(Breast Cancer Features) (责任编辑:本港台直播) |