报码:【j2开奖】从短句到长文，计算机如何学习阅读理解(2)_本港台直播_J2开奖直播

一般来说，人们在读完一篇文章之后就会在脑海里形成一定的印象，例如这篇文章讲的是什么人，做了什么事情，出现了什么，发生在哪里等等。人们能够很轻而易举地归纳出文章中的重点内容。机器阅读理解的研究就是赋予计算机与人类同等的阅读能力，j2直播，即让计算机阅读一篇文章，随后让计算机解答与文中信息相关的问题。这种对人类而言轻而易举的能力，对计算机来说却并非如此。

很长一段时间以来，自然语言处理的研究都是基于句子级别的阅读理解。例如给计算机一句话，理解句子中的主谓宾、定状补，谁做了何事等等。但长文本的理解问题一直是研究的一个难点，因为这涉及到句子之间的连贯、上下文和推理等更高维的研究内容。

比如下面这段文本： The Rhine (Romansh: Rein, German: Rhein, French: le Rhin, Dutch: Rijn) is a European river that begins in the Swiss canton of Graubünden in the southeastern Swiss Alps, forms part of the Swiss-Austrian, Swiss-Liechtenstein border, Swiss-German and then the Franco-German border, then flows through the Rhineland and eventually empties into the North Sea in the Netherlands. The biggest city on the river Rhine is Cologne, Germany with a population of more than 1,050,000 people. It is the second-longest river in Central and Western Europe (after the Danube), at about 1,230 km (760 mi), with an average discharge of about 2,900 m3/s (100,000 cu ft/s). （大意：莱茵河是一条位于欧洲的著名河流，始于瑞士阿尔卑斯山，流经瑞士、奥地利、列支敦士登、法国、德国、荷兰，最终在荷兰注入北海。莱茵河上最大的城市是德国科隆。它是中欧和西欧区域的第二长河流，位于多瑙河之后，约1230公里。）

若针对该段内容提问：What river is larger than the Rhine?（什么河比莱茵河长？）人们可以轻易地给出答案：Danube（多瑙河）。但目前即使是最佳的系统模型R-NET给出的输出也并不尽人意，它的回答是：科隆，可见要让计算机真正地理解文本内容并像人一样可以对文字进行推理的难度是如此之大。在回答该问题时，计算机除了要处理文中的指代“it”，还需要算法和模型进一步对“larger than”和“after”这两个表述进行推理，从而得知Danube是正确答案。此外，由于文中并没有显式提到Danube是“river”，所以又加大了系统的推理难度。

但大数据的发展让学者们看到了这一研究方向的曙光。可获取的越来越大的文本数据，加上深度学习的算法以及海量的云计算资源，使得研究者们可以针对长文本做点对点的学习，即对句子、短语、上下文进行建模，这其中就隐藏了一定的推理能力。所以，目前自然语言处理领域就把基于篇章的理解提上研究的议事日程，成为目前该领域的研究焦点之一。而针对上文提及的相关难点，微软亚洲研究院自然语言计算研究组正在进行下一步的研究和探索。

　　做顶尖的机器阅读理解研究

正如前文所说，机器阅读理解的研究之路始终充满着许多困难和挑战。

首先是数据问题。目前基于统计方法（尤其是深度学习模型）的机器阅读理解的研究离不开大量的、人工标注的数据。在SQuAD数据集推出之前，数据集常常面临规模较小，或是质量不佳（因为多是自动生成）的问题，而SQuAD无论是在数据规模还是数据质量上都有一个很大的提升。在基于深度学习方法的研究背景下，数据量不够就很难做出有效、或是有用的模型，更难对模型进行合理、标准的测试。

另一方面则是算法问题。之前自然语言处理在做阅读理解或者是自动问答研究的时候，会把这个研究问题视作一个系统的工程，因而把这个问题分成许多不同的部分。例如先去理解用户的问题；再去找答案的候选；再将候选答案进行精挑细选、互相比较；最后对候选答案进行排序打分，挑选出最可能的答案或者生成最终的答案。而这个繁复的过程中，似乎其中的每一步都是可以优化的。

但它相应地也会带来一些问题。第一，当你分步去优化这其中的每一个过程的时候，你会去研究如何更好地理解这个问题，或是研究如何更好地把答案做对，这些分目标研究结果的整合未必能和“如何将阅读理解的答案正确找出来”这个目标完全吻合。第二，如果想做局部的优化，就意味着每一个局部过程都需要相应的（标注）数据，这使得阅读理解的研究进展缓慢。如果只使用问题-答案作为训练数据，中间模块的优化得到的监督信息不那么直接，因而很难有效。

(责任编辑：本港台直播)