本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:【组图】神经图灵机深度讲解:从图灵机基本概念到可微分神经计算机(3)

时间:2017-04-11 20:20来源:668论坛 作者:118开奖 点击:
它们往往具有很强的数值不稳定性。部分原因是实际中给它们设计的任务。因为它们是在学习算法,所以它们往往不会犯小错误,它们倾向于犯大错误。如

它们往往具有很强的数值不稳定性。部分原因是实际中给它们设计的任务。因为它们是在学习算法,所以它们往往不会犯小错误,它们倾向于犯大错误。如果你在算法中犯了一个错误,那么所有的输出结果都会是不正确的。这意味着,当你训练它们的时候,它们总是很难找到需要的算法。如果喂给大量的数据,给予足够的时间,大多数神经网络都会得到一些结果。而神经图灵机经常会卡住。大家知道,它们经常一遍又一遍地一味地产生那些经常重复的值。这是因为使用记忆是很困难的。他们不仅必须学会记住以后解决问题所需要的东西,还必须记住不要意外地忘记它,这一层要求额外地增加了复杂性。因此,为了解决这个问题,你最终会用一些循环神经网络通用的巧妙的优化方法。但是为了让这些方法起作用,你需要想尽一切办法。所有的这些问题都让神经图灵机很难用在日常应用中。

码报:【j2开奖】神经图灵机深度讲解:从图灵机基本概念到可微分神经计算机

有很多应对数学不稳定性的方法。非常通用的一个方法就是梯度裁剪(gradient clipping),尤其是在使用 LSTM 的时候。梯度裁剪的本质就是,无论我们怎么认为一个坏的结果由初始参数导致的,我们都要限制一下其改变的程度。这可以帮助我们避免在任何时候当我们得到坏结果的时候就去擦除一切参数。当机器犯错时,我们不能完全丢掉已经学到的东西。

码报:【j2开奖】神经图灵机深度讲解:从图灵机基本概念到可微分神经计算机

损失裁剪本质上是梯度裁剪的扩展。相同的基本思想就是,神经图灵机会非常远离它们的目标。就像损失函数的总值一样,给我们能够改变的参数总和设置一个上限。我们经常结合这两种方法。基本上,我们需要把很多有效果的更改绑定到一个有不同含义的参数上面。

码报:【j2开奖】神经图灵机深度讲解:从图灵机基本概念到可微分神经计算机

好了,实际上另一个有趣的方向是 Graves 的 RMSprop。RMSprop 实际上是常见的反向传播算法的一个扩展,这个大家可能比较熟悉。反向传播是如今训练所有的神经网络的关键。RMSprop 是一个用来平滑梯度的系统。所以,在有序的数据点中,本质上你所做的就是对任何给定参数的效果取一个平均值。Graves 的 RMSprop 实际上是这个方法的一个变体。它本质上是做一个运行估计的方差,而非仅仅取一个平均值。它标准化并且保证损失的极值在实际中不会衰减太多,或者不会把参数减小那么多。这是一个非常聪明的方法,它也非常有趣,因为为了解决这个问题,人们不得不通读 Alex Graves 的一些论文。如果你仅仅实现普通的 RMSprop,它往往效果不佳。所幸,还有一些可以替代的优化方法。

码报:【j2开奖】神经图灵机深度讲解:从图灵机基本概念到可微分神经计算机

说实在的,尽管为了找出哪一个方法能够帮助你,你常常必须尝试多个算法,但是 Adam 优化器确实是一个常用的优化方法,并且它还支持了如今的大多数机器学习框架。像 Graves 的 RMSprop 方法一样,它基本上也是平滑梯度。这个方法有些复杂,所以我不会在这里讨论它是如何起作用的。但是一般而言,它确实是一个不错的备选方法。

码报:【j2开奖】神经图灵机深度讲解:从图灵机基本概念到可微分神经计算机

另一件值得注意的事就是值的初始化,尤其是记忆。一些人确实利用了由快速训练神经图灵机所带来的记忆偏差。但是一般来说,这实际上是他们的架构有问题的特点。因为初始记忆会让以后的计算产生很大的偏差,所以如果你以一组坏的参数开始的话,它可以彻底毁掉整个模型。就像很多其他这种技术一样,它们有助于提升通用神经网络的性能。但是在这种情况下,如果你做得不正确,它很可能不会收敛,你将不会得到一个合理的结果,所以为了合理地优化,你必须频繁地尝试不同的参数值作为初始点。

码报:【j2开奖】神经图灵机深度讲解:从图灵机基本概念到可微分神经计算机

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容