本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:为何RNN在众多机器学习方法中脱颖而出?

时间:2017-07-07 01:04来源:118论坛 作者:开奖直播现场 点击:
图: pixabay 「机器人圈」导览:近年来,循环神经网络(RNN)在众多自然语言处理项目中取得重大突破得以成名。为什么RNN可以在众多机器学习方法中脱颖而出?本文编译自machinelea

图: pixabay

机器人圈」导览:近年来,循环神经网络(RNN)在众多自然语言处理项目中取得重大突破得以成名。为什么RNN可以在众多机器学习方法脱颖而出?本文编译自machinelearningmastery.com,作者是Jason Brownlee。该作者以清晰的思路概括性地介绍了RNN的重要性和先进性,并详细阐释了几种用于深度学习中的RNN模型。相信此文一定会使你对RNN的理解更加深入。文章略长,阅读时长大约20分钟。

循环神经网络(RNN)是一种人工神经网络,RNN在网络图中添加附加权重,以在网络图中创建周期,以维持内部状态。

向神经网络添加状态,他们将能够明确地学习并利用序列预测问题中的环境。

在这篇文章中,你将参加用于深度学习的经常性神经网络。

看完这篇文章后,你会了解:

用于深度学习的RNN,如LSTM、GRU和NTM。

RNN与人工神经网络中对于循环的更广泛研究的相关性。

RNN的研究如何引发了一系列具有挑战性问题。

注意,我们不会涉及所有循环神经网络。相反,我们将重点关注用于深度学习(LSTM、GRU和NTM)的循环神经网络,以及了解它们所需的环境。

概览

我们将通过设置循环神经网络领域的场景开始。

接下来,我们将仔细研究用于深度学习的LSTM、GRU和NTM。

然后,我们花一些时间研究一些与RNN相关的高级话题。

完全循环网络(Fully Recurrent Networks)

递归神经网络(Recursive Neural Networks)

神经历史压缩器(Neural History Compressor)

循环神经网络RNN

我们先设置一个场景。普遍的看法表明,循环为网络拓扑提供了记忆。

理解这一点更好的方法是,训练集包含了当前训练示例的一组输入的示例,常规上,比如传统的多层感知器是这样的。

X(i) -> y(i)

但是,训练示例补充了前一个例子中的一组输入。这是“非常规”,例如循环神经网络。

[X(i-1), X(i)] -> y(i)

与所有前馈网络范例一样,问题是如何将输入层连接到输出层,包括反馈激活,然后训练结构收敛。

现在我们来从非常简单的概念开始,看看不同类型的循环神经网络。

全循环网络

该网络保留了多层感知器的分层拓扑,但是每个元素都具有与架构中每个其他元素的加权连接,并且具有与其自身关联的单个反馈连接。

并不是所有的连接都会被训练,并且误差导数的极端非线性意味着传统的反向传播将不起作用,因此该网络采用BPTT(通过时间的反向传播算法)或随机梯度下降。

另外,参见1991年由Bill Wilson发布的Tensor Product Networks。

递归循环网络

递归神经网络是递归网络的线性架构变体。

递归促进了分层特征空间中的分支,同时,由此产生的网络架构在训练进行时模仿它。

通过梯度梯度方法实现训练。

该网络在2011年由R. Socher等人发布的的Paralsing Natural Scenes and Natural Language with Recursive Neural Networks(通过递归神经网络分析自然场景和自然语言)一文中,有详细描述。

神经历史压缩器

LSTM之父Jürgen Schmidhuber曾于2001年首次报道了一个非常深度的学习器,通过无监督的RNN层次结构的预训练,能够对数百个神经层进行信用分配。

每个RNN被无监督地训练,以预测下一个输入。只有产生误差的输入才会向前推进,将新的信息传送到层次结构中的下一个RNN,然后以较慢的自组织时间尺度进行处理。

结果显示,没有任何信息丢失,只是被压缩了。RNN堆栈是数据的“深度生成模型”,我们可以从压缩形式重建数据。

详情可参见J.Schmidhuber等人2014年撰写的Deep Learning in Neural Networks:An Overview。

反向传播则失败了,即使有一些可能性,由于非线性导数的极值的计算增加,误差通过大型拓扑反向传播,使信用分配非常困难。

长短期记忆网络

通过传统的反向传播时间(BPTT)或实时循环学习(RTTL),时间流逝的误差信号往往会爆炸或消失。

反向传播误差的时间演化很大程度上取决于权重的大小。权重爆炸可能引起权重振荡,而消失的原因,则是因为学习过程长时间延迟,并且花费太多的时间,或者根本不起作用。

LSTM是一种具有一定的基于梯度的学习算法的新型循环网络架构训练。

LSTM旨在克服误差回流问题。它可以学习跨越超过1000步的时间间隔。

噪声、不可压缩的输入序列是的确存在的,同时还不会失去短期延迟能力。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容