生成记忆模型对于这些应用来说是必需的。生成记忆模型对于智能代理来说也是重要组件,因为它们允许虚拟推理、物理预测、机器人本地化和在其他领域的基于模仿的规划。 这些任务要求了带有高水平的观测序列、并包含了复杂的、具有长程依赖性的模型,大部分现有GTM是无法达到要求的。研发达到上述要求的GTM是他们此项研究的一个大目标。 许多GTM——无论他们是线性的还是非线性的、确定的还是随机的——假设了潜在的时间动态是由低序马尔科夫迁移主导并使用了固定维度的充足数据。这样的模型有隐马尔科夫模型和像卡尔曼滤波器这样的线性动态系以及它们的非线性扩展。使用在这些模型中的定序马尔科夫假设对于描写许多实际相关的系统是不够的。Bialek在数量上论证了马尔科夫假设无法描写长程相关的物理系统,对文献中长距离相关性的部分也无法准确描写。那些去长程、多序的记录中获取信息的模型,比如循环神经网络,在这方面比限制在定序马尔科夫假设的模型要有显著优势。 许多最近提出的GTM,比如变量循环神经网络(VRNN)和深度卡尔曼滤波器,建立在广为人知的循环神经网络基础上,比如长短记忆网络 Long Short-Term Memory (LSTM) (Hochreiter and Schmidhuber, 1997) 和 Gated Recurrent Units (GRUs) (Chung et al., 2015a)。 原则上,这些循环网络可以解决变序马尔科夫问题,比如设计新增动态以存储和保护长程信息。实践中,当要求更高的存储容量时,它们表现很差。这些RNN是典型的密集联接,因此模型的参数复杂性会随着存储容量成二次方增长。再有,它们的循环动态必须服务于两个相互竞争的角色:一方面必须稳定地存储信息以供未来的提取,另一方面必须进行相关计算以提取即刻使用的信息。这些限制指向了对于将记忆存储从计算中区分出来的RNN的需要。 DeepMind的研究者证明了GTMM有更强的解决复杂、长程依赖性任务的能力。他们研发了一个通用结构,研究了四种使用不同类型存储系统的情况。这四个模型展示出不同的存储系统是如何适应不同类型的序列结构,以及对于成功建模、有效数据和生产质量的影响。 他们首先描述了设计generative temporal models的一般方法,并进行了几个不同的推断(第二部分)。然后,基于一系列为凸显给长程依赖性信息建模的不同问题而设计的视觉序列任务,比较了GTMM和VRNN。最后,大踏步地迈向为在三维环境中更富有理解能力的模型评级。 作者写道,在这一过程中,主要有以下技术贡献: 我们研发了带存储的产生模型的通用结构。这一结构使得我们可以发展基于我们存储系统的GTMM:一个新型位置存储结构,可用在 Introspection Network、神经图灵机, Least-Recently Used access mechanism (LRU) ,可差分神经计算机(DNC) 。 我们论证了变量推断可以较容易地训练能够处理导向最先进的时间VAE的高维度输入流。 我们论证了我们的新模型完胜现有最先进的基于多任务(从复制任务的变体到长时间延迟后的准确回溯)的模型 我们论证了我们的GTMM能够为实际的3D环境建模,并展示了这些模型可以抓取物理和时间连贯性上的重要部分,例如在封闭的环形中连贯地产生第一人称视角。 研究结果 在7个任务上测试了我们的模型,测试它们的学习能力和对有复杂依赖性的时序数据进行预测的能力。这些任务涉及图像序列建模,并提供演绎、空间推理和一次性生成(one-shot generalisation)的测试。下面为每个任务提供了示例训练序列。
任务中的样本序列 :pre-recall interval l = 20 , recall interval k = 5。
在奇偶校验调用任务中,调用的区间由标志每个初始图像k的均匀性或奇数性图像组成。
对于一次性调用任务,在测试时间的序列是用训练期间未使用的一组符号创建的。即便如此,完美的调用仍然是可能的。
在index-and-recall之后的动态依赖性任务的训练序列,其中每个图像里的数字提供序列次序中下一个数字的位置参考
相似性提示回忆任务的示例训练序列。 (责任编辑:本港台直播) |