本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:LSTM、GRU与神经图灵机:详解深度学习最热门的循(3)

时间:2017-07-09 13:36来源:本港台现场报码 作者:www.wzatv.cc 点击:
猜测(Guessing):这种随机方法可以超越许多时间滞后算法。事实已经说明,之前的工作中所使用的许多长时间滞后任务可以通过简单的随机权重猜测得到

猜测(Guessing):这种随机方法可以超越许多时间滞后算法。事实已经说明,之前的工作中所使用的许多长时间滞后任务可以通过简单的随机权重猜测得到比提出的算法更快的解决。

参见 S. Hochreiter 和 J. Schmidhuber《Long-Short Term Memory》:?id=1246450

LSTM 循环神经网络最有意思的应用出现在语言处理领域。更全面的描述可参阅 Gers 的论文 :

F. Gers 和 J. Schmidhuber 2001 年的论文《LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages》:ftp://ftp.idsia.ch/pub/juergen/L-IEEE.pdf

F. Gers 2001 年的博士论文《Long Short-Term Memory in Recurrent Neural Networks》:

LSTM 的局限性

LSTM 有效的截断版本无法轻松解决类似于「强延迟的异或(strongly delayed XOR)」这样的问题。

每个记忆单元模块都需要一个输入门和一个输出门。并不一定需要其它循环方法。

在记忆单元内穿过「常量误差传送带(Constant Error Carrousels)」的常量误差流可以得到与传统的前馈架构(会一次性获得整个输入串)一样的效果。

和其它前馈方法一样,LSTM 也有「regency」概念上的缺陷。如果需要精密的计数时间步骤,j2直播,那么可能就需要额外的计数机制。

LSTM 的优点

该算法桥接长时间滞后的能力来自其架构的记忆单元中的常量误差反向传播。

LSTM 可以近似有噪声的问题域、分布式表征和连续值。

LSTM 可以很好地泛化其所考虑的问题域。这是很重要的,因为有的任务无法用已有的循环网络解决。

在问题域上对网络参数进行微调看起来是不必要的。

在每个权重和时间步的更新复杂度方面,LSTM 基本上就等于 BPTT。

LSTM 很强大,在机器翻译等领域实现了当前最佳的结果。

门控循环单元神经网络

门控循环单元神经网络已经在序列和时间数据上得到了成功的应用。

最适合语音识别、自然语言处理和机器翻译。与 LSTM 一起,它们在长序列问题领域表现优良。

门控(gating)被认为是在 LSTM 主题中,涉及到一个门控网络生成信号来控制当前输入和之前记忆发生作用的方式,以更新当前的激活,从而更新当前的网络状态。

门本身是自我加权的,会在整个学习阶段中根据一个算法有选择性地更新。

门网络会增加计算复杂度,从而会增加参数化(parameterization),进而引入额外的计算成本。

LSTM RNN 架构将简单 RNN 的计算用作内部记忆单元(状态)的中间候选项。门控循环单元(GRU)RNN 将 LSTM RNN 模型的门控信号减少到了 2 个。这两个门分别被称为更新门(update gate)和重置门(reset gate)。

GRU(和 LSTM)RNN 的门控机制和在参数化方面的简单 RNN 一样。对应这些门的权重也使用 BPTT 随机梯度下降来更新,因为其要试图最小化成本函数。

每个参数更新都将涉及到与整体网络的状态相关的信息。这可能会有不利影响。

门控的概念可使用三种新变体的门控机制来探索和扩展。

这三种门控变体为:GRU1(其中仅使用之前的隐藏状态和偏置来计算每个门——、GRU2(其中仅使用之前的隐藏状态来计算每个门—)和 GRU3(其中仅使用偏置来计算每个门)。我们可以观察到参数显著减少,其中 GRU3 的参数数量最小。

这三种变体和 GRU RNN 在手写数字的 MNIST 数据库和 IMDB 电影评论数据集上进行了基准测试。

从 MNIST 数据集生成了 2 个序列长度,而从 IMDB 数据集生成了 1 个序列长度。

这些门的主要驱动信号似乎是(循环)状态,因为其包含关于其它信号的基本信息。

随机梯度下降的使用隐含地携带了有关网络状态的信息。这可以解释仅在门信号中使用偏置的相对成功,因为其自适应更新携带了有关网络状态的信息。

门控变体可使用有限的拓扑结构评估来探索门控机制。

更多信息请参阅:

R. Dey 和 F. M. Salem 2017 年的论文《Gate-Variants of Gated Recurrent Unit (GRU) Neural Networks》:https://arxiv.org/ftp/arxiv/papers/1701/1701.05923.pdf

J. Chung 等人 2014 年的论文《Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling》:https://pdfs.semanticscholar.org/2d9e/3f53fcdb548b0b3c4d4efb197f164fe0c381.pdf

神经图灵机

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容