本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】【资源】最好用的 AI 开源数据集 Top 39:计算机视觉、NLP、语音等 6 大类

时间:2017-02-22 17:35来源:本港台直播 作者:118KJ 点击:
【 新智元导读】 本文按计算机视觉、自然语言处理、语音识别、地理空间数据等人工智能的子领域分类,精心整理,每个数据集均附有下载链接,是做 AI 研究不容错过资源。 今天,

  新智元导读】本文按计算机视觉、自然语言处理、语音识别、地理空间数据等人工智能的子领域分类,精心整理,每个数据集均附有下载链接,是做 AI 研究不容错过资源

  今天,构造 AI 或机器学习系统比以往任何时候都更加容易。我们有许多开源的最前沿的工具,如 TesorFlow,Torch,Spark 等,也有 AWS、Google Cloud 以及其他云服务提供商提供的大量计算力,这意味着你可以悠哉地一边喝着咖啡一边用 laptop 训练模型。

  虽然不算人工智能这列火车的车头,但 AI 革命的幕后英雄是数据——得益于各大研究机构和企业的辛苦工作,我们有机会获取大量有标签和注释的数据。这些研究机构和企业也认识到,数据的民主化是加速 AI 发展的一个必要步骤。

  然而,大多数包含机器学习或 AI 的产品都严重依赖非公开的专有数据集。因此,很难判定哪些公开数据集有用。

  重要的是,在数据集上表现得性能良好并不能保证机器学习系统在真实的产品场景中表现良好。许多搞 AI 的人忘记了构建新 AI 解决方案或开发产品的最难的部分不是 AI 本身或者算法,而是数据的收集和标记。标准数据集可以用于验证模型,或作为构建更加定制化的解决方案的一个好的起点。

  以下是我们精心收集的一些非常好的开放数据集,也是做 AI 研究不容错过的数据集。

  标签解释

  

码报:【j2开奖】【资源】最好用的 AI 开源数据集 Top 39:计算机视觉、NLP、语音等 6 大类

  【经典】这些是在 AI 领域中非常著名、众所周知的数据集。很少有研究者或工程师没有听说过它们。

  【有用】这些是更加接近现实世界的、精心设计的数据集。而且,这些数据集通常在产品和研发两方面都有用。

  【学术】这些是在机器学习和 AI 的学术研究中通常作为基准或基线使用的数据集。无论好坏,研究人员都使用这些数据集来验证算法。

  【陈旧】这些数据集,无论是否实用,已经有相当长历史了。

  计算机视觉

  【学术、经典、陈旧】MNIST:最常用的完整性检查数据集,图像大小为25x25的B&W手写数字,但在 MNIST 上性能良好,并不意味着模型本身很好。

  地址:

  【经典、陈旧】CIFAR 10 & CIFAR 100:32x32的彩色图像数据集,虽然已经不常用,但也可以用作完整性检查。

  地址:https://www.cs.toronto.edu/~kriz/cifar.html

  【有用、学术、经典】ImageNet:新算法实际上使用的图像数据集,很多图像 API 公司从其 REST 接口获取标签,这些标签被怀疑与 ImageNet 的下一级 WordNet 的 1000 个类很相似。

  地址:

  LSUN:用于场景理解和多任务辅助(房间布局估计,显着性预测等)。

  地址:

  【学术】PASCAL VOC:一个通用的图像分割/分类数据集,对构建真实图像的注释用处不是特别大,但对于基线很有用。

  地址:

  【学术】SVHN:数据来源于 Google 街景视图中的房屋数量,可以用作野外的周期性 MNIST。

  地址:

  MS COCO:一个通用的图像理解/字幕数据集。

  地址:

  【有用】Visual Genome:非常详细的视觉知识数据集,包含约100K图像的深字母。

  地址:

  【有用、学术、经典、陈旧】Labeled Faces in the Wild:使用名称标识符标记的面部区域数据集,常用于训练面部识别系统。

  地址:

  自然语言处理

  【有用、学术】Text Classification Datasets:一个文本分类数据集,包含8个可用于文本分类的子数据集,样本大小从120K到3.6M,问题范围从2级到14级,数据来源于 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。

  地址:

  【有用、学术】WikiText:由 Salesforce MetaMind 设计的大型语言建模语料库,来源于维基百科文章。

  地址:

  【有用】Question Pairs:第一个来源于 Quora 的包含重复/语义相似性标签的数据集。

  地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容