「……提出一个新型的基于混合注意力机制的端到端可训练的语音识别结构,为了在解码的时候在输入序列中选择下一个位置,它同时结合了内容信息和位置信息。该模型令人满意的一点是它能够识别比训练所用的语料更长的语音。」 ——Attention-Based Models for Speech Recognition (https://arxiv.org/abs/1506.07503), 2015. 输出音素到输入语音帧的注意力编译。图片来自论文:Attention-Based Models for Speech Recognition, 2015. 5. 文本摘要中的注意力机制 给定一段英文文章作为输入序列,输出一段英文文本来总结输入序列。注意力机制被用来关联摘要文本中的每一个词语与源文本中的对应单词。 「……提出一个基于 neutral attention 机制的模型用于抽象摘要,该模型在最近神经机器翻译的进展基础上发展而来。我们将该概率模型与一个能够生成准确抽象摘要的生成算法结合起来。」 ——A Neural Attention Model for Abstractive Sentence Summarization (https://arxiv.org/abs/1509.00685), 2015 输入文本中的单词与输出摘要的注意力编译。图片来自论文:A Neural Attention Model for Abstractive Sentence Summarization, 2015. 延伸阅读 如果你对在 LSTM 中添加注意力机制感兴趣,可以阅读下面的内容: 深度学习和自然语言处理中的注意力和记忆(Attention and memory in deep learning and NLP,) 注意力机制(Attention Mechanism,https://blog.heuritech.com/2016/01/20/attention-mechanism/) 基于注意力机制的模型在自然语言处理中的应用(Survey on Attention-based Models Applied in NLP,) [Quora 问答] 将注意力机制引入 RNN 究竟是什么?(What is exactly the attention mechanism introduced to RNN? https://www.quora.com/What-is-exactly-the-attention-mechanism-introduced-to-RNN-recurrent-neural-network-It-would-be-nice-if-you-could-make-it-easy-to-understand) 神经网络中的注意力机制是什么?(What is Attention Mechanism in Neural Networks? https://www.quora.com/What-is-Attention-Mechanism-in-Neural-Networks) 总结 这篇博文介绍了在 LSTM 循环神经网络中使用注意力机制用于序列预测。 具体而言: 循环神经网络中的编码器-解码器结构使用固定长度的内部表征,给超长序列的学习带来了限制。 通过允许网络学习将输出序列中的每一项与输入序列中的相关项相对应,注意力机制克服了编码器-解码器结构的这种局限性。 这种方法在多种序列预测问题中得到应用,包括文本翻译、语音识别等。 原文链接: (责任编辑:本港台直播) |