本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:机器学习项目实践:30+ 必备数据库(预测模型、图像分类、文本分类)

时间:2016-12-04 17:06来源:本港台现场报码 作者:开奖直播现场 点击:
:COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j [email protected] HR 微信: 13552313024 新智元为COO和执行总编提供

  :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

  简历投递:j[email protected]

  HR 微信:13552313024

  新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和金。

  加盟新智元,与人工智能业界领袖携手改变世界。

  【新智元导读】有了好的数据,机器学习项目也就成功了一半。希望这份资源清单有助于那些寻找机器学习项目实践的人。对于初学者来说,这绝对是一个金矿。确保你在业余时间选择一些项目,并在上面投入时间和精力,将对你的技术成长大有益处。

  大规模通用数据库:从这里入手

  data.gov- 这是美国政府开放数据集总部。这些数据集的主题包括气候、教育、能源、金融和更多领域的数据。

  data.gov.in - 这是印度政府公开数据库,你可以在这里查找关于印度各行业、气候、医疗保健等数据。同样,稍微改变后缀,就能查看不同地区国家政府的公开数据库,比如

英国:data.gov.uk

澳大利亚:data.gov.au

  当然,也并非全世界国家的公开数据库都是“data.gov”加更改后缀就可以了,比如

加拿大:open.canada.ca

中国:data.stats.gov.cn

法国:etalab.gouv.fr

德国:destatis.de

  总之,国家公开数据库相关权威标准,是你进行机器学习项目实践的一个不错的选择。

  World Bank- 世界银行的公开数据库。该平台提供了好几个工具,比如开放数据目录(Open Data Catalog)、世界发展指数、教育指数等等。

  Five Thirty Eight Datasets- 这里是美国偏政治新闻网站 Five Thirty Eight 在他们的文章中使用的数据集。每个数据集里不仅包括了数据,还有解释这些数据的字典,以及相关报道链接。如果你想学习如何创建数据报道,这是你的最佳选择。

  大型数据库:机器学习项目必备

  Amazon Web Services (AWS) datasets- 亚马逊提供了一些大数据集,可以在他们的平台或你自己的本地计算机上使用。亚马逊上的热门数据集包括完整的 Enron 电子邮件数据集,j2直播,Google图书 n-gram,NASA NEX 数据集,Million Songs 数据集等等。

  Google datasets- Google提供了几个数据集作为其 Big Query 工具的一部分,包括婴儿名字、GitHub公共存储库的数据、所有来自Hacker News的故事和评论等。

  Youtube labeled Video Dataset - 几个月前,谷歌发布了YouTube标记的资料集,其中包含800万个YouTube影片ID和4800个视觉实体的相关标签。不仅如此,这个数据集里面还配备了几十亿帧经过预计算的、最先进的视觉feature。

  预测模型与机器学习专用数据库

  UCI Machine Learning Repository - UCI机器学习库显然是最著名的数据库,也是寻找与机器学习知识库相关数据集最常去的地方之一。该数据集包括从诸如 Iris 和Titanic 等流行数据集,以及诸如空气质量和GPS轨迹等新建的数据集。UCI机器学习库包含超过350个数据集,其标签分类包括域、目的(分类、回归)。你可以使用这些过滤器找到你所需要的数据集。

  Kaggle- Kaggle 提出了一个平台,人们可以在这里捐赠数据集,其他社区成员则可以对这些数据集进行投票或在这些数据集上运行内核/脚本。Kaggle共有超过350个数据集,其中,超过200个作为精选数据集(Featured datasets)。 虽然一些数据集跟其他地方有重复,但在这里我也发现了在其他平台没有的一些有趣的数据集。此外,Kaggle 界面的另一个好处是,您可以在同一界面上查看社区成员的脚本和问题。

  Analytics Vidhya - 这是我们自己网站的数据集,包括使用问题数据集和黑客马拉松数据集。这里的数据集都是基于现实生活中的行业问题,并且有专为为期2 - 7天的黑客马拉松的相对较小的数据集。虽然关于真实生活中的实际问题数据集哪里都有,但黑客马拉松比赛之后相关数据集就不可再用。所以,你需要参加黑客马拉松,才能获得相关数据集。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容