问:reconstruction error 以前常见于投影 project 重建 rebuild,或者是编码重建 encode/decode。图像上,一般常用 residual 来表示,例如子空间算法,KSVD 分解等等。这种对偶重建的方法,有没有可能发展成一种泛化的投影重建? 答: 我觉得你可以尝试一下,图像上的东西不太懂。如果可以做成这种对偶tasks的形式,一个task take 某个action的reward可以由另外一个task给出,应该就可以试试。 3. SQuAD: 100,000+ Questions for Machine Comprehension of Text作者 Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, Percy Liang 单位 Computer Science Department, Stanford University 关键词 Question Answering, Dataset Creation 文章来源 EMNLP 2016 问题 创建一个large and high quality reading comprehension dataset。 模型 数据收集 用PageRanks搜寻出top 10000 English Wiki articles,然后uniformly sample 536 articles,做相关数据清洗后得到23215 paragraphs。这部分数据被分成三部分,training set(80%),development set(10%),test set(10%)。 下一步我们将这些paragraphs都放到Amazon Mechanical Turk上让用户创建问题以及回答问题。这样我们便得到了一个新的QA数据集。 为了评估human在这个QA数据集上的表现,development set和test set中的每个问题被至少发给了两个额外的crowdworkers,其中有2.6%的问题被crowdworkers标记为unanswerable。 数据集分析 我们把答案分成了两部分,numerical和non-numerical。对non-numerical answers再做一次constituency parsing和POS Tagging,发现答案分布如下图所示。
Baselines 作者做了sliding window baseline和logistic regression baseline,用accuracy和F1 Score做评估。结果如下图所示。
资源 在Stanford Question Answering dataset可以看到所有dataset的信息,test set leaderboard上有各种Model的performance。 相关工作 Question Answering方面的dataset有不少,最近比较popular的有:MCTest by Microsoft,BAbI dataset by Facebook,WikiQA by Microsoft,CNN/Daily Mail by DeepMind, Children’s Book Test by Facebook。有兴趣的读者可以查阅相关文献。 简评 SQuAD是一个高质量的Reading comprehension dataset。作者花费了大量的人力物力,让Crowdworkers根据Wikipedia Paragraph出题和答题。构建的dataset数量巨大且质量高,对未来Reading Comprehension Question Answering的研究非常有帮助。 完成人信息 Zewei Chu,The University of Chicago,[email protected]。 Chat实录 问:请介绍一下这个reading comprehension dataset和其他dataset之间的主要区别?以及该dataset的优势是? 答: 这篇paper相对于前面两篇内容简单一些,主要就是介绍了一个新构建的QA数据集。所以我和大家交流分享一下我比较熟悉的最近一些比较popular的QA Dataset吧。 MCTest: 数据集本身质量不错,像普通的阅读理解,是根据一篇文章提出问题,然后在给定的四个选项中选出一个。但是数据集太小,现在比较主流的RC model都是基于deep learning的,数据量太小很难让model学习到有用的信息。所以个人认为小数据集上的Model多少会给人一种强凑答案的感觉。 CNN/Daily Mail, CBT: 这个数据集我比较熟悉,数据集比较大,也是比较火的一个数据集。问题的答案只是一个单词或者一个entity,SQuAD的答案有比较长的phrase。the entities are anonymized。在anonymized dataset上训练的一个问题是,容易训练出没有semantics的模型来。因为训练集上的参考答案都是entity1,entity2,到了真实情况下碰到很大的vocabulary模型未必work。 (责任编辑:本港台直播) |