参与:Jane W、Cindy、吴攀 去年四月的 MetaMind 仍然在继续进行自然语言领域的前沿研究。近日,其研究博客发布了一篇文章,详细介绍了一种用于文本摘要提取的深度强化模型(deep reinforced model),机器之心对这篇博客进行编译介绍,并在文后附带了相关的研究论文摘要。论文链接:https://arxiv.org/abs/1705.04304机器之心发布过的 MetaMind 的其它文章还有和。 近几十年来,获取新信息的方式发生了根本性变化,也带来了越来越多挑战。信息的获取已不再是瓶颈;瓶颈在于我们是否有能力紧跟信息的步伐。我们都必须通过越来越多的阅读来获取关于工作、新闻和社交媒体的最新进展。我们研究了人工智能在信息大潮中帮助人们提高工作能力的方法——答案之一是让算法自动归纳长文本。 怎样训练能够产生长句、连贯和有意义的摘要的模型仍然是一个有待解决的研究问题。事实上,即使是最先进的深度学习算法,生成任何长文本也是很困难的。为了使模型能够成功地生成摘要,我们引入了两个独立的改进:一个更加语境化的词生成模型和一种通过强化学习(RL)训练摘要模型的新方法。 两种训练方法的结合使得系统能够创建相关且高可读性的多语句长文本(例如新闻文章)摘要,并在之前的基础上实现了显著的提升。我们的算法可以对各种不同类型的文本和摘要长度进行训练。在本文中,我们介绍了我们的模型的主要贡献,并概述了文本摘要特有的自然语言挑战。 图 1:我们的模型的示例——由新闻文章生成多语句摘要。对于每个生成的词,模型重点关注输入的特定词和之前生成的输出。 提取式摘要(Extractive Summarization)与抽象式摘要(Abstractive Summarization) 自动摘要模型可以通过以下两种方法实现:通过提取或抽象。提取式模型执行「复制和粘贴」操作:它们选择输入文档的相关短语并连接它们以形成摘要。它们非常稳健,因为它们使用直接从原文中提取的已有自然语言短语,但是由于不能使用新词或连接词,它们缺乏灵活性。它们也不能像人一样改述。相反,抽象式模型基于实际的「抽象」内容生成摘要:它们可以使用原文中没有出现的词。这使得它们有更多的潜力来产生流畅和连贯的摘要,但因为需要模型生成连贯的短语和连接词,这也是一个更难的问题。 虽然抽象式模型在理论上更强大,但在实践中也常出现错误。在生成的摘要中,典型的错误包括不连贯、不相关或重复的短语,特别是在尝试创建长文本输出时。从已有模型来看,它们缺乏一般连贯性、意识流动性和可读性。在本任务中,我们解决了这些问题,并设计了一个更稳健和更连贯的抽象式摘要模型。 为了理解我们的新抽象式模型,我们首先定义基本构建块(building block),然后介绍我们新的训练方式。 循环神经网络(RNN)能够处理可变长度的序列(例如文本),并为每个短语计算有用的表征(或隐藏状态)。网络逐一处理序列的每个元素(在这种情况下,即每个词);对于序列中的每个新输入,网络通过该输入和之前隐藏状态的函数输出新的隐藏状态。从这个角度讲,在每个词处计算的隐藏状态是所有之前读到的单词的函数输出。
图 2:循环神经网络通过对每个词应用相同的函数(绿色)来读取输入语句 RNN 也可以用类似的方式产生输出序列。在每个步骤中,RNN 隐藏状态用于生成添加到最终输出文本的新词,该词将被用作该模型的下一个输入。 图 3:RNN 可以生成输出序列,并重使用输出单词作为下一个函数的输入。 输入(读取)和输出(生成)RNN 可以组合在联合模型中,其中输入 RNN 的最终隐藏状态被用作输出 RNN 的初始隐藏状态。以这种方式组合,联合模型能够读取任何文本并从中生成不同的文本。该框架称为编码器-解码器(encoder-decoder)RNN(或 Seq2Seq),它是我们摘要模型的基础。另外,我们用双向编码器替代传统的编码器 RNN,它使用两个不同的 RNN 来读取输入序列:一个从左到右读取文本(如图 4 所示),另一个从右到左读取。这有助于我们的模型更好地表示输入语境。 图 4:编码器-解码器 RNN 模型可用于解决自然语言中的 sequence-to-sequence 任务(如摘要) 一种新的注意及解码机制 (责任编辑:本港台直播) |