【有用、学术】SQuAD:斯坦福大学的问答数据集,广泛用于问题回答和阅读理解,其中每个问题和答案都是文本片段的形式。 地址:https://rajpurkar.github.io/SQuAD-explorer/ CMU Q/A Dataset:人工生成的问题/答案对,难度评级来自维基百科文章。 地址:~ark/QA-data/ 【有用】Maluuba Datasets:用于状态性的自然语言理解研究的人工制作的精细数据集。 地址:https://datasets.maluuba.com/ 【有用、学术】Billion Words:一个大型、通用的语言建模数据集,常用于如 word2vec 或 Glove 的分布式词语表征。 地址: 【有用、学术】Common Crawl:Petabyte 级规模的网络爬行数据集,常用于学习词嵌入。 地址: 【学术、经典】bAbi:来自 FAIR 的阅读理解和问答应答数据集。 地址:https://research.fb.com/projects/babi/ 【学术】The Children’s Book Test:从古登堡计划的童书中提取的(问题+上下文,答案)的基线,该数据集对问题回答、阅读理解和模拟陈述有用。 地址:https://research.fb.com/projects/babi/ 【学术、经典、陈旧】Stanford Sentiment Treebank:一个标准情感数据集,数据集中每个句子解析树的每个节点都有精细的情感注释。 地址: 【经典、陈旧】20 Newsgroups:一个文本分类的经典数据集,通常用于纯分类或作为任何 IR/索引算法的基准。 地址:~jason/20Newsgroups/ 【经典、陈旧】Reuters:一个较旧,完全基于分类的新闻文本数据集,常用于教程。 地址: 【经典、陈旧】IMDB:一个比较旧,规模也相对较小的二院情感分类数据集。 地址:~amaas/data/sentiment/ 【经典、陈旧】UCI’s Spambase:这是一个年代较久远的、经典的垃圾电子邮件数据集,来源是著名的 UCI 机器学习库。由于该数据集在设计细节上的独特之处,可以用作学习个性化垃圾邮件过滤的一个有趣的基线。 地址:https://archive.ics.uci.edu/ml/datasets/Spambase
大多数语音识别数据集是专有的,因为这些数据对于创建该数据集的公司来说具有很大价值。因此,这部分的可用公开数据集多数比较陈旧。 【学术、陈旧】2000 HUB5 English:仅包含英语的语音数据集,百度最近的论文《深度语音:扩展端对端语音识别》使用的是这个数据集。 地址:https://catalog.ldc.upenn.edu/LDC2002T43 【学术】LibriSpeech:包含文本和语音的有声读物数据集,由近500小时的多人朗读的清晰音频组成,且包含书籍的章节结构。 地址: 【有用、学术】VoxForge:带口音的语音清洁数据集,直播,对测试模型在不同重音或语调下的鲁棒性非常有用。 地址: 【学术、经典、陈旧】TIMIT:英文语音识别数据集。 地址:https://catalog.ldc.upenn.edu/LDC93S1 【有用】CHIME:包含环境噪音的语音识别挑战赛数据集。该数据集包含真实、模拟和清洁的语音录音,具体来说,包括4个扬声器在4个有噪音环境下进行的将近9000次录音,模拟数据是将多个环境组合及在无噪音环境下记录的数据。 地址: TED-LIUM:TED Talk 的音频数据集,包含1495个TED演讲的录音及全文的文字稿。 地址: 推荐和排序系统 (责任编辑:本港台直播) |