本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:Facebook开源DrQA的PyTorch实现:基于维基百科的问答

时间:2017-07-30 02:23来源:天下彩论坛 作者:118开奖 点击:
资源 | Facebook开源DrQA的PyTorch实现:基于维基百科的问答系统 2017-07-29 12:11 来源:机器之心 程序设计/操作系统/亚马逊 原标题:资源 | Facebook开源DrQA的PyTorch实现:基于维基百科的问答系

资源 | Facebook开源DrQA的PyTorch实现基于维基百科的问答系统

2017-07-29 12:11 来源:机器之心 程序设计 /操作系统 /亚马逊

原标题:资源 | Facebook开源DrQA的PyTorch实现基于维基百科的问答系统

选自GitHub

参与:Panda

今年 4 月,斯坦福大学和 Facebook 人工智能研究所在 arXiv 发布了一个基于维基百科的开放域问题问答系统 DrQA。近日,Facebook 在 GitHub 上开源了这个系统的代,FAIR 主管 Yann LeCun 在社交网络也为这次开源做了宣传。据悉,该研究也将出现在 7 月 30 日举行的 ACL 2017 大会上。

论文地址:https://arxiv.org/abs/1704.00051

开源地址:https://github.com/facebookresearch/DrQA

Yann LeCun 的推荐语:

DrQA 是一个开放域的问答系统。向 DrQA 系统输入一段文本,然后提一个答案能在该文本中找到的问题,那么 DrQA 就能给出这个问题的答案。代相关的论文将在 ACL 发表。向该团队致敬:FAIR 研究工程师 Adam Fisch、斯坦福博士实习生 Danqi Chen 和 FAIR 科学家 Jason Weston 和 Antoine Bordes。

大规模机器阅读

wzatv:Facebook开源DrQA的PyTorch实现:基于维基百科的问答

DrQA 是一个用于开放域问答的阅读理解系统。DrQA 特别针对的是被称为「大规模机器阅读(MRS:machine reading at scale)」的任务。在这种设置中,我们要在可能非常大的非结构化文档语料库(可能并不冗余)中搜索问题的答案。因此这个系统必然要将文档检索难题(寻找相关文档)与文本的机器理解(在这些文档中确定答案的范围)结合到一起。

我们使用 DrQA 的实验专注于回答事实性问题,同时仅使用维基百科作为文档的唯一知识源。维基百科是一个非常合适的大规模、丰富和详细的信息源。为了回答一个问题,系统必须首先检索超过 500 万篇文章中的少数几篇可能相关的文章,然后再仔细地扫描它们以确认答案。

注意,DrQA 将维基百科看作是文章的一般集合,而并不依赖其内部的图结构。因此 DrQA 可以直接被用于任何文档的集合,正如在文档检索器(Document Retriever)的 README 中描述的那样。

这个 repo 包含了代码、数据和用于处理和查询维基百科的预训练的模型,该模型如论文中描述的一样,参阅后文「训练后的模型与数据」一节。我们也列出了几种用于评估的不同数据集,参见后文「问答数据集」一节。注意这项工作是在原始代码基础上的重构版本,也更加有效。再生数(reproduction numbers)非常相似,但并不完全一样。

快速上手:演示

安装 DrQA 并下载我们的模型,然后开始问开放域问题吧!

运行 python s/pipeline/interactive.py 可进入交互式的会话。对于每一个问题,会返回其上面涉及的范围和其来源的维基百科段落。

>>> process( 'What is question answering?')Top Predictions:+------+----------------------------------------------------------------------------------------------------------+--------------------+--------------+-----------+| Rank | Answer | Doc | Answer Score | Doc Score |+------+----------------------------------------------------------------------------------------------------------+--------------------+--------------+-----------+| 1| a computer science discipline within the fields of information retrieval andnatural language processing | Question answering | 1917.8| 327.89|+------+----------------------------------------------------------------------------------------------------------+--------------------+--------------+-----------+Contexts:[ Doc = Question answering ]Question Answering (QA) isa computer science discipline within the fields ofinformation retrieval andnatural language processing (NLP), which isconcerned withbuilding systems that automatically answer questions posed byhumans ina natural language. >>> process( 'What is the answer to life, the universe, and everything?')Top Predictions:+------+--------+---------------------------------------------------+--------------+-----------+| Rank | Answer | Doc | Answer Score | Doc Score |+------+--------+---------------------------------------------------+--------------+-----------+| 1| 42| Phrases fromThe Hitchhike r's Guide to the Galaxy | 47242 | 141.26 |+------+--------+---------------------------------------------------+--------------+-----------+Contexts:[ Doc = Phrases from The Hitchhiker's Guide to the Galaxy ]The number 42andthe phrase, "Life, the universe, and everything"haveattained cult status on the Internet. "Life, the universe, and everything"isa common name forthe off-topic section of an Internet forum andthe phrase isinvoked insimilar ways to mean "anything at all". Many chatbots, when askedabout the meaning of life, will answer "42". Several online calculators arealso programmed withthe Question. Google Calculator will give the result to "the answer to life the universe and everything"as42, aswill Wolfram 'sComputational Knowledge Engine. Similarly, DuckDuckGo also gives the result of"the answer to the ultimate question of life, the universe and everything" as42. In the online community Second Life, there is a section on a sim called43. "42nd Life." It is devoted to this concept in the book series, and severalattempts at recreating Milliways, the Restaurant at the End of the Universe, were made.>>> process( 'Who was the winning pitcher in the 1956 World Series?')Top Predictions:+------+------------+------------------+--------------+-----------+| Rank | Answer | Doc | Answer Score | Doc Score |+------+------------+------------------+--------------+-----------+| 1| Don Larsen | New York Yankees | 4.5059e+06| 278.06|+------+------------+------------------+--------------+-----------+Contexts:[ Doc = New York Yankees ]In 1954, the Yankees won over 100games, but the Indians took the pennant withan AL record 111wins; 1954was famously referred to as"The Year the YankeesLost the Pennant". In , the Dodgers finallybeat the Yankees inthe WorldSeries, after five previous Series losses to them, but the Yankees came backstrong the next year. On October 8, 1956, inGame Five of the 1956WorldSeries against the Dodgers, pitcher Don Larsen threw the only perfect game inWorld Series history, which remains the only perfect game inpostseason play andwas the only no-hitter of any kind to be pitched inpostseason play untilRoy Halladay pitched a no-hitter on October 6, 2010.

你自己试试看吧!当然,DrQA 可能会提供其它的事实,所以请享受这段旅程吧。

安装 DrQA

DrQA 的设置很简单!

DrQA 需要 Python 3.5 或更高版本,也需要安装 PyTorch。它的其它依赖要求可参阅 requirements.txt 文件。

运行以下命令克隆这个库并安装 DrQA:

git clone https://github.com/facebookresearch/DrQA.gitcd DrQA; pip install -r requirements.txt; python setup.py develop

注:requirements.txt 包含所有可能所需的软件包的一个子集。根据你要运行的内容,你可能需要安装其它软件包(比如 spaCy)。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容