在这三个系统中,注意力分布是相当集中的:通常每次只关注一个或者两个单词。当注意力比较分散的时候,通常会出错,因为这个时候网络不确定做什么。 在生成摘要的第一个单词时,三个系统都注意 Munster 和 Francis 这两个词。总之,网络倾向于寻找人名或者地名来作为摘要的开始。 那么,抽象式摘要实现了没? 远没到实现的程度!尽管我们展示这些进步可以帮助我们驯服循环神经网络的一些野蛮行为,但是仍然有很多未解决的问题。 尽管我们的系统生成了抽象式摘要,但是生成的单词通常都是和原文相当接近的。更高水平的抽象——例如更加强大的压缩释义,仍然未被解决。 有时候,网络没有去聚焦源文本的核心内容,反而概括一些不太重要的信息。 有时候,网络错误地组合了原文的片段,例如,作出的摘要是 work incorrectly composes fragments of the source text – for example reporting that,而事实上刚好相反。 多句式摘要有时候并没有构成一个有意义的整体,例如,在没有事先介绍的情况下,就用一个代词(例如 she)去代替一个实体 (例如德国总理 Angela Merkel)。 我认为未来最重要的研究方向是可解释性(interpretability)。通过揭示网络正在关注什么,注意力机制在神经网络的黑盒中点亮了珍贵的光芒,以帮助我们调试类似重复和复制的问题。为了取得进一步的进展,我们需要深入了解递归神经网络从文本中学习到的内容以及知识的表征方式。 但那是以后的事情啦!现在,关注论文原文来了解我们工作的细节吧。 原文链接: 本文为机器之心编译,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |