结果表说明 RNN 可以通过 100 个暗隐藏单元(dim hidden unit)解决这个问题,LSTM 可以使用 50 个暗隐藏单元解决它,而快速权重 RNN 只需要 20 个即可。这并不令人惊奇,因为在 FW RNN 中的 20 个暗隐藏单元能比普通 RNN 实现远远更大的容量。问题在于:它能够学习怎么使用这种记忆容量吗?是的,因为 FW RNN 在 R=20 时能达到 1.18% 的误差率。
任务 2 :使用快速权重结合 glimpse 视觉注意模型:注意模型已经展现出了能克服 ConvNet 一些缺陷的能力:一是理解 ConvNet 注意的地方;二,注意模型能有选择的关注图像的重要部分。注意模型如何工作?给定一张输入图像,视觉注意模型计算一系列的 glimpse,每个 glimpse 对应图像的一个小区域。视觉注意模型能学习找到图像中的不同物体并对他们进行分类,但它使用的计算 glimpse 的方法过于简化:它使用单尺度的 glimpse,并按照特定的顺序扫描整个图像。然而,人类的眼睛能够在不同的尺度上注意图像的不同部分,并结合整个观察做出正确的决定。改进模型记忆近期 glimpse 的能力,应该可以帮助视觉注意模型发现意义重大的 glimpse 策略。快速权重能学习一个序列中的所有 glimpse,因此隐态可被用于决定如何融合视觉信息,并检索合适的记忆。 为了观察快速权重是否有效,想象一个简单的循环视觉注意模型,它不能预测该注意哪里,但却能从不同层级中获得位置的固定序列。该注意模型需要融合 glimpse 信息,从而成功的完成任务。快速权重可使用一个临时缓存来存储 glimpse 计算,而且同一模型的慢权重能融合 glimpse 信息。 在 MINST 上评估多级视觉注意模型 Table 2 展现了带有多级 glimpse 的 ReLU RNN 和带有同样 glimpse 序列的 LSTM 的结果。结果表明在隐藏单元数量有限的情况下,快速权重有更强的记忆能力,也因此表现比 LRNN 和 LSTM 更好。此外,LSTM 也不擅长融合 glimpse,因为 LSTM 有序的处理 glimpse。改变 glimpse 的序列不能改变物体的意义。不像必须要融合一系列 glimpse 的模型,ConvNet 并行处理所有的 glimpse,并使用隐藏单元的层来留取所有的融合,所以它的表现要比序列模型更好。
实现: https://github.com/jiamings/fast-weights Hugo Larochelle 所做笔记: ?bibtexKey=journals/corr/1610.06258#hlarochelle 思考 该快速联想记忆模型结合了来自神经科学的思路。 该论文没有提到模型在语言相关的任务上的表现,直播,因此在语言任务中用快速权重 RNN 取代 LSTM 会很有趣。 该论文表明不能使用 mini-batch,因为每个序列的快速权重矩阵都不同,但与一系列存储的隐藏向量相比却允许 mini-batch。mini-batch 确保我们能利用 GPU 计算能力的优势,但该快速权重模型如何使用 mini-batch 的思路还很模糊。 ©本文为机器之心原创,转载请联系本公众号获得授权。 ?------------------------------------------------ 加入机器之心(全职记者/实习生):[email protected] 投稿或寻求报道:[email protected] 广告&商务合作:[email protected] (责任编辑:本港台直播) |