注意:简单分类准确率对此数据意义不大,直播,因为将背景时间分类为信号要比将信号分类为背景更糟糕。该数据可用来对比 ROC 图应该使用的不同分类器。同时也要注意背景事件(h 代表 hadronic showers)的数量是被低估的,开奖,在真实测量中,h 或噪声类代表主要事件。 相关研究: Bock, R.K. (1995). UCI Machine Learning Repository Irvine, CA: University of California, School of Information 天气数据集 来自 NOAA 的每小时地面天气观测(融合了从 2013 年 4 月到 2013 年 10 月的数据) 这份天气 数据包括了机场天气预报站的观测数据,时间从 2013 年 4 月到 10 月。 在上传 Azure ML Studio 之前,数据集要做如下处理: 气象站 ID 要映射到对应的机场 ID 上。 与忙碌的 70 家机场无关的气象站需要过滤掉 日期按年、月、和天分为单独的列 需要选择的列包括:机场 ID、年、月、日、时间、时区、天空状况(skycondition)、能见度、天气类型、干球华氏温度(DryBulbFarenheit)、干球摄氏温度(DryBulbCelsius)、湿球华氏温度(WetBulbFarenheit)、湿球摄氏温度(WetBulbCelsius)、露点华氏温度(DewPointFarenheit)、露点摄氏温度(DewPointCelsius)、相对湿度、风速、风向、ValueForWindCharacter、本站气压(StationPressure)、气压趋向(PressureTendency)、气压变化(PressureChange)、 海平面气压(SeaLevelPressure)、 记录类型(RecordType)、每小时降雨量(HourlyPrecip)、(高度计)Altimeter 维基百科标准普尔 500 指数数据集(Wikipedia SP 500 Dataset) 源自维基百科的基于标准普尔 500 指数中每家公司的文章的数据,以 XML 格式存储。 在将该数据集上传到 Azure ML Studio 之前,需要进行以下处理: 提取每家特定公司的文本内容 移除 wiki 格式 移除非字母数字的字符 将所有文本转换成小写 已知公司类别已被加入 注意有些公司没有找到文章,所以该记录的数量小于 500. 可以 CSV 格式下载的数据集 direct_marketing.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/direct_marketing.csv) 这个数据集包含了关于一项直接邮寄活动的客户数据和关于他们的响应的指示。其中每一行代表一个客户。该数据集包含关于用户人口学信息和过去行为的 9 项特征,以及 3 个标签列(访问、转化和支出)。访问(visit)是一个二元行,表示了每次营销活动后客户的访问;转化(conversion)表示客户购买了一些东西;支出(spend)是指花费了多少钱。该数据集由 Kevin Hillstrom 为 MineThatData 电子邮件分析和数据挖掘挑战赛(MineThatData E-Mail Analytics And Data Mining Challenge)提供。 lyrl2004_tokens_test.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/lyrl2004_tokens_test.csv) RCV1-V2 Reuters 新闻数据集中的测试样本的特征。该数据集有 78.1 万条新闻文章以及它们的 ID(该数据集的第一列)。其中每篇文章都已经 tokenized、stopworded 和 stemmed。该数据集由 David. D. Lewis 提供。 lyrl2004_tokens_train.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/lyrl2004_tokens_train.csv) RCV1-V2 Reuters 新闻数据集中的训练样本的特征。该数据集有 2.3 万条新闻文章以及它们的 ID(该数据集的第一列)。其中每篇文章都已经 tokenized、stopworded 和 stemmed。该数据集由 David. D. Lewis 提供。 来自 KDD Cup 1999 知识发现和数据挖掘工具竞赛(KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition)的数据集。 该数据集可在 Azure Blob 下载: https://azuremlsampleexperiments.blob.core.windows.net/datasets/network_intrusion_detection.csv,其中包含了训练和测试数据集。训练数据集有大约 12.6 万行和 43 列,其中包含标签;3 列标签性质信息和 40 列数值与字符串/类别特征信息,都可用于训练该模型。测试数据集有大约 2.25 万个测试样本,和训练数据一样有 43 列。 rcv1-v2.topics.qrels.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/rcv1-v2.topics.qrels.csv) (责任编辑:本港台直播) |