一些将神经网络的注意力(attention)聚焦于该网络的输入或记忆力(memory)某些特定部分的机制已被成功应用于深度学习模型。注意力提高了图像识别、生成图说、语音识别、生成模型以及学习算法这些任务,但受其影响最大的可能还是机器翻译领域。 近年来,通过使用其他机制也取得了类似的提升。新的机制不是将注意力聚焦在记忆力单一的一部分,而是统一对整体进行并行操作。这种机制被称为“Active Memory”,在算法任务、图像处理和生成模型建模方面都提升了注意力的效果。 然而,迄今为止,在大多数自然语言处理任务,尤其是机器翻译中,Active Memory 并没有提升注意力。本文中我们分析了这一缺陷,同时提出了一个 Active Memory 延伸模型,不仅与现有神经机器翻译的注意力模型相配,还能够生成更好、更长的句子。我们调查了这一模型,并说明了以前的 Active Memory 模型不成功的原因。最后,我们探讨了如何发挥 Active Memory 模型的最大潜力,以及哪些情况下更适合使用注意力模型。
【进入新智元微信公众号,在对话框输入“1029”下载谷歌大脑最新 NIPS 论文】 :COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。 简历投递:j[email protected] HR 微信:13552313024 新智元为COO和执行总编提供最高超百万的年薪激励;为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。 加盟新智元,与人工智能业界领袖携手改变世界。 (责任编辑:本港台直播) |