本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:机器学习项目实践:30+ 必备数据库(预测模型、图像分类、文本分类)(2)

时间:2016-12-04 17:06来源:本港台现场报码 作者:开奖直播现场 点击:
Quandl - Quandl 通过其网站/ API或其他一些工具直接集成金融、财经方面的数据,分为Open 和 Premium 两种。其中,所有 Open 数据集都是免费的。 Past KDD - Cup KD

  Quandl- Quandl 通过其网站/ API或其他一些工具直接集成金融、财经方面的数据,分为Open 和 Premium 两种。其中,所有 Open 数据集都是免费的。

  Past KDD - Cup KDD Cup是由ACM知识发现和数据挖掘特别兴趣小组组织举办的年度数据挖掘和知识发现比赛。这里的存档包括数据集和比赛说明。大多数年份的冠军机器数据库都能在这里找到。

  Driven Data- 现实世界实际问题数据库,你可以用它来创造积极的社会影响。Driven Data 举行在线模拟竞赛,从而让参赛者开发出最好的模型来解决这些现实问题。如果你有兴趣使用数据科学对社会做贡献,这就是你该去的地方。

  图像分类数据库

  MNIST 数据库- 使用手写数字进行图像识别最流行的数据集,包括 6 万个训练样本和 1 万个示例测试集。MNIST数据库是你用作练习图像识别的第一数据集。

  Chars74K - 这是 MNIST 数据库的下一级,其中几包括一些自然图像中字符识别数据集。Chars74K 数据集包含 7.4 万个图像,这也是该数据集名称的由来。

  Frontal Face Images- 如果您已经处理过前面的2个项目,并且能够识别数字和字符,那么这里是图像识别中的下一级挑战。这些图像由CMU 和 MIT 整理收集,列在四个文件夹中。

  ImageNet - 这个数据集想必不用多做介绍,这里简单说一下。ImageNet 是根据 WordNet 层次结构组织的图像数据库(目前只有名词)。每个节点由数百个图像分层次行描绘。刚想治疗术了; 具有每个节点图像平均超过500个图像(并且持续增加中)。

  文本分类数据库

  Spam - Non-Spam - 一个有趣的数据集,你需要构建一个分类器将 SMS 分类为垃圾邮件或非垃圾邮件。

  Twitter Sentiment Analysis- 该数据集包含超过 157 万条分类过的推文,正面情绪标记为1,负面情绪标记为0。这些数据基于一项 Kaggle 竞赛建立的,作者是Nick Sanders

  Movie Review Data - 提供电影评论文档资料的集合,这些资料根据内容的情绪极性(正面或负面)或主观评价(例如“两颗半星”),以及根据句子的主观性状态(主观或客观 )或极性(polarity)进行了标记。

  推荐引擎数据库

  MovieLens- 帮人找电影的网站,有上万的注册用户。这些用户会填写 MovieLens 在线问卷,包括自动内容推荐、推荐界面、基于标签的推荐等等。这些数据集可供下载,用于创建你自己的推荐系统。

  Jester- 关于在线笑话推荐系统的数据集。

  更多数据库资源

  KDNuggets - KDNuggets的数据集页面一直是寻找数据集的人的常用参考。这里有一个非常全面的列表,但有些源不再提供数据集。因此,在使用时需要对数据集及源自行判断。

  Awesome Public Datasets- GitHub 库,包含按域分类的数据集的完整列表。数据集在各个域中被整齐地分类。但是,没有关于库本身的数据集的描述。

  Reddit 数据集 Subreddit - 由于是社区驱动的论坛,这个数据集可能会相对有一点凌乱(与前两个源相比)。但是,你可以按热门程度或投票排序数据集,以查看最受欢迎的数据集。此外,Reddit 网站上还有一些有趣的关于数据集的讨论。

  我希望这份资源清单有助于那些寻找机器学习项目实践的人。对于初学者来说,这绝对是一个金矿。确保你在业余时间选择一些项目,并在上面投入时间和精力,这将对你的技术成长大有益处。

  如果你能想到这些数据集的任何其他应用或知道任何其他流行的资源,欢迎在分下面的评论里分享。

  编译来源:https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/

新智元招聘

  职位 运营总监

  职位年薪:36- 50万(工资+金)

  工作地点:北京-海淀区

  所属部门:运营部

  汇报对象:COO

  下属人数:2人

  年龄要求:25 岁 至 35 岁

  性别要求:不限

  工作年限:3 年以上

  语 言:英语6级(海外留学背景优先)

  职位描述

负责大型会展赞助商及参展商拓展、挖掘潜在客户等工作,人工智能及机器人产业方向

擅长开拓市场,atv,并与潜在客户建立良好的人际关系

深度了解人工智能及机器人产业及相关市场状况,随时掌握市场动态

主动协调部门之间项目合作,组织好跨部门间的合作,具备良好的影响力

带领团队完成营业额目标,并监控管理项目状况

负责公司平台运营方面的战略计划、合作计划的制定与实施

  岗位要求

大学本科以上学历,硕士优先,要求有较高英语沟通能力

3年以上商务拓展经验,有团队管理经验,熟悉商务部门整体管理工作

对传统全案公关、传统整合传播整体方案、策略性整体方案有深邃见解

具有敏锐的市场洞察力和精确的客户分析能力、较强的团队统筹管理能力

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容