——Dzmitry Bahdanau, et al., Neural machine translation by jointly learning to align and translate (https://arxiv.org/abs/1409.0473), 2015 使用大幅图片时的问题应用在计算机视觉问题中的卷积神经网络也面临类似问题,j2直播,用特别大的图片训练模型会很困难。由此引发的结果就是在做出预测之前,图像会被大量观察,得到其近似表示(approximate impression)。 「人类感知的一个重要特点就是不会倾向于一次性处理场景的全貌,而是选择性地将注意力聚焦于视觉空间中的某些部分来获取所需信息,并且结合不同时间点的局部信息来构建整个场景的内部表征,以此指导随后的眼动和决策。」 ——Recurrent Models of Visual Attention (https://arxiv.org/abs/1406.6247), 2014 这些基于 glimpse 的修正也可以被认为是注意力机制,但是并不是本文要说的注意力机制。 相关论文: Recurrent Models of Visual Attention, 2014 DRAW: A Recurrent Neural Network For Image Generation, 2014 Multiple Object Recognition with Visual Attention, 2014 使用注意力机制进行序列预测的 5 个例子 这一部分给出了一些将注意力机制与循环神经网络结合起来用于序列预测的具体例子。 1. 文本翻译中的注意力机制 文本翻译这个例子我们在前面已经提过了。给定一个法语句子的输入序列,将它翻译并输出英文句子。注意力机制用于观察输入序列中与输出序列每一个词相对应的具体单词。 「生成每个目标词时,我们让模型搜索一些输入单词或由编码器计算得到的单词标注,进而扩展基本的编码器-解码器结构。这让模型不再必须将整个源句子编码成一个固定长度的向量,还能让模型仅聚焦于和下一个目标词相关的信息。」 ——Dzmitry Bahdanau, et al., Neural machine translation by jointly learning to align and translate (https://arxiv.org/abs/1409.0473, 2015 法语-英语翻译中的注意力编译 图注:列为输入序列,行为输出序列,高亮块代表二者的关联,颜色越浅,则关联性越强。 图片来自论文:Dzmitry Bahdanau, et al., Neural machine translation by jointly learning to align and translate, 2015 2. 图像描述中的注意力机制 与 glimpse 方法不同,atv直播,基于序列的注意力机制可以应用在计算机视觉问题上,来帮助找出方法,使输出序列时更好地利用卷积神经网络来关注输入的图片,例如在典型的图像描述任务中。给定一幅输入图像,输出对该图像的英文描述。注意力机制用于关注与输出序列中的每一个词相关的局部图像。 「我们提出了一个基于注意力机制的方法,该方法在三个基准数据集上都达到了最先进的性能表现……我们还展示了如何使用学得的注意力机制为模型生成过程提供更多可解释性,演示了学得的对齐与人类直觉一致性很高。」 —— Show, Attend and Tell: Neural Image Caption Generation with Visual Attention, 2016 输出单词与输入图像特定区域的注意力编译 和上图类似,输出文本中下划线处单词对应右侧图片中的泛光区域。图片来自论文:Show, Attend and Tell: Neural Image Caption Generation with Visual Attention, 2016 3. 语义蕴涵中的注意力机制 给定一个前提场景,并且用英文给出关于该场景的假设,输出内容是前提和假设是否矛盾、二者是否相互关联,或者前提是否蕴涵假设。 例如: 前提:「婚礼上的照片」 假设:「某人在结婚」 注意力机制用于将假设中的每一个词与前提中的词关联起来,反之亦然。 我们提出了一个基于 LSTM 的神经模型,它能够将两个句子读取成一个句子来进行语义蕴涵分析,而不是把每个句子都独立地编码成一个语义向量。然后,我们用逐词注意力机制(neural word-by-word attention mechanism)来扩展该模型,以鼓励对成对单词和词组是否存在蕴涵关系作出推理……该扩展模型的基准测试分数比 LSTM 高了 2.6%,创造了一项新的准确率记录…… ——Reasoning about Entailment with Neural Attention (https://arxiv.org/abs/1509.06664), 2016 前提中的单词到假设中单词的注意力编译。图片来自论文:Reasoning about Entailment with Neural Attention, 2016 4. 语音识别中的注意力机制 给定一个英文语音片段作为输入,输出一个音素序列。注意力机制被用来关联输出序列中的每一个音素和输入序列中特定的语音帧。 (责任编辑:本港台直播) |