在 RCV1-V2 新闻数据集中的新闻主题分配。一篇新闻可被分为多个主题。每一行的的格式是 1。该数据集包含 260 万个主题分配,由 David. D. Lewis 共享。 student_performance.txt 这个数据集来自 KDD Cup 2010 学生表现评估挑战赛(student performance evaluation)。这个数据集已被 Algebra_2008_2009 训练集采用(Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R.(2010)) 在 KDD Cup 2010 教育数据挖掘挑战赛中的 Algebra I 2008-2009 数据集可以在该竞赛的网站中下载:。 该数据集也可以在 Azure Blob 下载: https://azuremlsampleexperiments.blob.core.windows.net/datasets/student_performance.txt,其中的数据来自于学生辅导系统。其中提供了问题 ID 和简要描述,学生 ID,时间标记,同时还有学生在正确解决问题前的尝试次数。原数据集存储了 890 万条记录,这个数据集减少了取样数量,容量缩小至前 10 万行数据。这份数据每一条目有 23 个不同类型的分项,包括数值、类别和时间戳。 ©本文由机器之心经授权编译,机器之心系今日头条签约作者,本文首发于头条号,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |