使用远程监督(distant supervision)在没有 NER/POS/lemma 功能的情况下训练的模型,在完全维基百科环境中的多个数据集(这是测试集,开发集是 SQuAD)上的评估结果: 链接:https://s3.amazonaws.com/fair-data/drqa/multitask.mdl 维基百科 我们的完全规模实验是在 2016 年 12 月 21 日转存的英语版维基百科上执行的。这个转存数据使用 WikiExtractor(https://github.com/attardi/wikiextractor)进行了处理,并为内部消岐、列表、索引和大纲页面(通常仅包含链接的页面)进行了过滤。我们将这些文档存储成了一个 sqlite 数据库,其中 drqa.retriever.DocDB 提供了一个接口。 链接:https://s3.amazonaws.com/fair-data/drqa/docs.db.gz 问答数据集 用于 DrQA 训练和评估的数据集可以在这里找到: SQuAD 训练:https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v1.1.json 开发:https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json WebQuestions 训练: 测试: 实体:https://s3.amazonaws.com/fair-data/drqa/freebase-entities.txt.gz WikiMovies:训练/测试/实体:https://s3.amazonaws.com/fair-data/drqa/WikiMovies.tar.gz(这是从 https://research.fb.com/downloads/babi/ 以预期格式重新托管的) CuratedTrec:训练/测试:https://s3.amazonaws.com/fair-data/drqa/CuratedTrec.tar.gz(这是从 https://github.com/brmson/dataset-factoid-curated 以预期格式重新托管的) 格式 A retriever/eval.py、pipeline/eval.py 和 distant/generate.py 需要数据集是 .txt 文件,且其中每一行都是 JSON 格式编码的问答对,比如: '{"question": "q1", "answer": ["a11", ..., "a1i"]}'... '{"question": "qN", "answer": ["aN1", ..., "aNi"]}' 将 SQuAD 和 WebQuestions 转换成这种格式的脚本包含在 s/convert,这是在 download.sh 中自动完成的。 格式 B reader 目录脚本需要数据集是 .json 文件,其中数据像 SQuAD 一样排布: file.json├── "data"│ └── [i]│ ├── "paragraphs"│ │ └── [j]│ │ ├── "context": "paragraph text"│ │ └── "qas"│ │ └── [k]│ │ ├── "answers"│ │ │ └── [l]│ │ │ ├── "answer_start": N│ │ │ └── "text": "answer"│ │ ├── "id": "<uuid>"│ │ └── "question": "paragraph question?"│ └── "title": "document id"└── "version": 1.1 实体列表 一些数据集有(可能很大的)可选答案列表。比如,WikiMovies 的答案是 OMDb 实体,而 WebQuestions 则基于 Freebase。如果我们已经知道了候选项,我们可以通过丢弃不在这个列表中的任何更高得分范围来强行使所有预测的答案必须在这个列表中。 DrQA 组件 文档检索器 DrQA 并未绑定任何特定类型的检索系统——只要其能有效地缩小搜索空间并重点关注相关文档即可。 (责任编辑:本港台直播) |