误差的回流问题是通过一种高效的,基于梯度的算法来克服的,这种算法用于通过特殊单元的内部状态的体系结构执行常数(从而不会爆炸或消失)的误差。这些单元会减少“输入量冲突”和“输出权重冲突”的影响。 输入权重冲突:如果输入非零,则必须使用相同的输入权重来存储某些输入并忽略其他输入,然后经常会收到冲突的加权更新信号。 这些信号将尝试使权重参与存储输入并保护输入。这种冲突使得学习过程变得困难,并且需要一个更加环境敏感的机制来通过输入权重来控制“写入操作”。 输出权重冲突:只要单元的输出不为零,来自该单元的输出连接的权重将吸引在序列处理期间产生的冲突加权更新信号。 这些信号将尝试使输出权重参与访问存储在处理单元中的信息,并且在不同时间保护随后的单元免受被馈送的单元的输出的干扰。 这些冲突并不是长期延迟的特殊情况,直播,也可能同样影响到短期延迟。值得注意的是,随着延迟的增加,存储的信息必须保护免受扰动,特别是在学习过程的高级阶段。 网络架构:不同类型的单元可能传达关于网络当前状态的有用信息。例如,输入门(输出门)可以使用来自其他存储器单元的输入以决定是否在其存储器单元中存储(访问)某些信息。 存储单元包含门。门是具体到他们调解的连接。输入门用于纠正输入重量冲突,同时输出门可以消除输出重量冲突。 门:具体来说,为了减轻输入和输出权重的冲突和扰动,引入乘法输入门单元以保护存储的内容不受干扰输入的扰动,乘法输出门单元通过存储的当前不相关的存储器内容保护其他单元免受干扰。 具有8个输入单元、4个输出单元和2个大小为2的存储单元块的LSTM网络的示例.in1标记输入门,out1标记输出门,cell1 = block1标记块1的第一个存储单元。 由于处理元件的多样性,同时包含反馈连接,LSTM的连接性与多层感知器相比是复杂的。 存储单元块:共享相同输入门和相同输出门的存储单元形成称为“存储单元块”的结构。 存储单元块有助于信息存储,与传统的神经网络一样,在单个小区内对分布式输入进行编码并不容易。尺寸为1的存储单元块仅仅是一个简单的存储单元。 学习:由输入和输出门引起的改变的乘法动力学的实时循环学习(RTRL)的变体被用于确保通过存储器单元的内部状态到达“存储器单元网络”的反向传播的非衰减误差投入“不要及时传播”。 猜测:这种随机方法可以胜过许多术语延迟算法。我们可以确定,之前的工作中使用的许多长时间延迟的任务可以通过简单的随机权重猜测比通过所提出的算法更快地得到解决。 详见1997年S.Hochreiter和J.Schmidhuber撰写的Long-Short Term Memory。 LSTM循环神经网络最有趣的应用是自然语言处理。请参阅下列文章以获得全面的描述。 F. Gers和J. Schmidhuber,LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages, 2001年。 F. Gers,Long Short Memory in Recurrent Neural Networks,Ph.D.论文,2001年。 LSTM的限制 LSTM的高效截断版本不会轻易解决类似于“强烈延迟XOR”的问题。 每个存储单元块需要一个输入门和一个输出门。其他循环方法则不需要。 存储单元内部的“Constant Error Carrousels”的恒定误差流量与传统的前馈架构一样产生与整个输入串相同的效果。 LSTM与“regency”的概念是其他前瞻性方法一样有缺陷。如果需要精密计数时间步长,可能需要额外的计数机制。 LSTM优点 桥接长时间延迟的算法能力是架构内存单元中反向传播的不间断误差的结果。LSTM可以近似于噪声问题域、分布式表示和连续值。LSTM概述了应该考虑的问题,这非常重要,因为一些任务对于已经建立的循环网络来说是棘手的。 网络参数在问题域上的微调显然是不必要的。在每个权重和时间步长的更新复杂性方面,LSTM基本上等同于BPTT。LSTM显示出强大的功能,在机器翻译等领域获得了最先进的成果。 门控循环单元神经网络 门控循环神经网络已成功应用于顺序或时间数据。它最适合用于语音识别、自然语言处理和机器翻译,与LSTM一样在长序列问题域表现良好。 在LSTM主题中考虑了门控,同时还包含了门控网络生成信号,该信号用于控制当前输入以及先前的存储器如何用于更新当前激活,从而更新当前的网络状态。 门自身被加权,并且在整个学习阶段根据算法选择性地更新。门控网络以增加的复杂性的形式引入增加的计算消耗,因此增加了参数化。 (责任编辑:本港台直播) |