LSTM RNN架构使用简单RNN的计算作为内部存储器单元(状态)的中间候选。门控循环单元(GRU)RNN将门控信号从LSTM RNN模型中减少到两个。这两个门被称为更新门和复位门。 GRU(和LSTM)RNN中的选通机制是对简单RNN在参数化方面的复制。使用BPTT随机梯度下降来更新对应于这些门的权重,因为它试图使成本函数最小化。 每个参数更新将涉及与整个网络的状态有关的信息。这可能会产生不利影响。 门控的概念进一步被探索,扩展出三种新的变量门控机制。涉及的三个门控变量是GRU1,atv,其中每个门仅使用先前的隐藏状态和偏差来计算;GRU2,其中每个门仅使用先前的隐藏状态计算;以及GRU3,其中每个门仅使用偏置来计算。我们会观察到,GRU3产生最小数量的参数显着降低。 这三个变体和GRU RNN使用来自MNIST数据库的手写数字和IMDB电影评论数据集的数据进行基准测试。 从MNIST数据集生成了两个序列长度,一个是从IMDB数据集生成的。 门的主要驱动信号似乎是(循环)状态,因为它包含有关其他信号的基本信息。 随机梯度下降的使用隐含地携带有关网络状态的信息。这可能解释了在栅极信号中单独使用偏置的相对成功,因为其可自适应更新携带有关网络状态的信息。 门控变体探索出了门控机制,并对拓扑结构进行了有限的评估。 有关更多信息,请参阅: R.Dey和F.M.Salem于2017年撰写的,门控循环单元(GRU)神经网络的门控变体。 J.Chung等人于2014年撰写的,“经验评估门控循环神经网络对序列建模”。 神经图灵机 神经图灵机通过将神经网络耦合到外部存储器资源来扩展神经网络的能力,它们可以通过关注过程进行交互。 组合系统类似于图灵机(Vuring Neumann)或冯诺依曼(Von Neumann)结构,但是它是可以实现端对端的,可以通过梯度下降进行有效的训练。 初步结果表明,神经图灵机可以从输入和输出示例中推导出简单的算法,如复制、排序和关联召回。 RNN从其他机器学习方法中脱颖而出,因为它们具备在长时间内学习并进行复杂的数据转换的能力。 扩展标准RNN的能力,以简化算法任务的解决方案,这种丰富性主要是通过一个庞大的可寻址记忆实现的,因此,通过类比图灵的通过无限的存储磁带丰富有限状态机器,该算法被称为“神经图灵机”(NTM)。 与图灵机不同,NTM是可以通过梯度下降训练的可微分计算机,为学习程序提供了实用的机制。 NTM架构如上所示。在每个更新周期期间,控制器网络接收来自外部环境的输入并作为响应发出输出。它还通过一组并行读写头读取和写入存储器矩阵。虚线表示NTM线路与外界的划分。 至关重要的是,架构的每一个组成部分都是可以区分的,直接用梯度下降训练。这是通过定义“模糊”读写操作来实现的,这些操作与内存中的所有元素或多或少地相互作用(而不是像正常的图灵机或数字计算机那样处理单个元素)。 A.Graves等人于2014年撰写的Neural Turing Machines。 R. Greve等人于2016年撰写的Evolving Neural Turing Machines for Reward-based Learning。 NTM实验: 这个复制任务测试NTM是否可以存储并调用长序列的任意信息。网络呈现随机二进制向量的输入序列,后跟分隔符标志。 训练网络以用来复制8位随机向量的序列,其中序列长度在1和20之间随机化。目标序列仅仅是输入序列的拷贝(没有定界符标志)。 重复复制任务通过要求网络将复制的序列输出指定次数来扩展副本,然后发出序列结束标记。它的主要动机是看看NTM是否可以学习一个简单的嵌套函数。 网络接收随机二进制向量的随机长度序列,随后是表示所需份数的标量值,其出现在单独的输入信道上。 关联召回任务涉及组织“间接”产生的数据,即一个数据项指向另一个数据项。构建项目列表,使得与其中一个项目的查询需要网络返回后续项目。 由分隔符符号左右限制的二进制向量序列被定义。在将多个项目传播到网络之后,通过显示随机项目查看该网络,并查看该网络是否可以产生下一个项目。 动态N-gram任务测试,如果NTM可以通过使用内存作为可重写表来快速适应新的预测分布,它可以用于保持转换统计数据,从而模拟常规的N-Gram模型。 (责任编辑:本港台直播) |