本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【j2开奖】【资源】最好用的 AI 开源数据集 Top 39:计算机视觉、NLP、语音等 6 大类(2)

时间:2017-02-22 17:35来源:本港台直播 作者:118KJ 点击:
【有用、学术】SQuAD: 斯坦福大学的问答数据集,广泛用于问题回答和阅读理解,其中每个问题和答案都是文本片段的形式。 地址:https://rajpurkar.github.

  【有用、学术】SQuAD:斯坦福大学的问答数据集,广泛用于问题回答和阅读理解,其中每个问题和答案都是文本片段的形式。

  地址:https://rajpurkar.github.io/SQuAD-explorer/

  CMU Q/A Dataset:人工生成的问题/答案对,难度评级来自维基百科文章。

  地址:~ark/QA-data/

  【有用】Maluuba Datasets:用于状态性的自然语言理解研究的人工制作的精细数据集。

  地址:https://datasets.maluuba.com/

  【有用、学术】Billion Words:一个大型、通用的语言建模数据集,常用于如 word2vec 或 Glove 的分布式词语表征。

  地址:

  【有用、学术】Common Crawl:Petabyte 级规模的网络爬行数据集,常用于学习词嵌入。

  地址:

  【学术、经典】bAbi:来自 FAIR 的阅读理解和问答应答数据集。

  地址:https://research.fb.com/projects/babi/

  【学术】The Children’s Book Test:从古登堡计划的童书中提取的(问题+上下文,答案)的基线,该数据集对问题回答、阅读理解和模拟陈述有用。

  地址:https://research.fb.com/projects/babi/

  【学术、经典、陈旧】Stanford Sentiment Treebank:一个标准情感数据集,数据集中每个句子解析树的每个节点都有精细的情感注释。

  地址:

  【经典、陈旧】20 Newsgroups:一个文本分类的经典数据集,通常用于纯分类或作为任何 IR/索引算法的基准。

  地址:~jason/20Newsgroups/

  【经典、陈旧】Reuters:一个较旧,完全基于分类的新闻文本数据集,常用于教程。

  地址:

  【经典、陈旧】IMDB:一个比较旧,规模也相对较小的二院情感分类数据集。

  地址:~amaas/data/sentiment/

  【经典、陈旧】UCI’s Spambase:这是一个年代较久远的、经典的垃圾电子邮件数据集,来源是著名的 UCI 机器学习库。由于该数据集在设计细节上的独特之处,可以用作学习个性化垃圾邮件过滤的一个有趣的基线。

  地址:https://archive.ics.uci.edu/ml/datasets/Spambase

  语音

  

码报:【j2开奖】【资源】最好用的 AI 开源数据集 Top 39:计算机视觉、NLP、语音等 6 大类

  大多数语音识别数据集是专有的,因为这些数据对于创建该数据集的公司来说具有很大价值。因此,这部分的可用公开数据集多数比较陈旧。

  【学术、陈旧】2000 HUB5 English:仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。

  地址:https://catalog.ldc.upenn.edu/LDC2002T43

  【学术】LibriSpeech:包含文本和语音的有声读物数据集,由近500小时的多人朗读的清晰音频组成,且包含书籍的章节结构。

  地址:

  【有用、学术】VoxForge:带口音的语音清洁数据集,直播,对测试模型在不同重音或语调下的鲁棒性非常有用。

  地址:

  【学术、经典、陈旧】TIMIT:英文语音识别数据集。

  地址:https://catalog.ldc.upenn.edu/LDC93S1

  【有用】CHIME:包含环境噪音的语音识别挑战赛数据集。该数据集包含真实、模拟和清洁的语音录音,具体来说,包括4个扬声器在4个有噪音环境下进行的将近9000次录音,模拟数据是将多个环境组合及在无噪音环境下记录的数据。

  地址:

  TED-LIUM:TED Talk 的音频数据集,包含1495个TED演讲的录音及全文的文字稿。

  地址:

  推荐和排序系统

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容