【新智元导读】DeepMind 的最新研究成果,对广泛使用于语音识别、图像识别、语义理解等领域的深度学习人工网络RNN性能带来显著提升(substantially better )。研究主要在记忆时序生成模型上用了外部记忆来增强,对深度学习领域的研究有一定启发。作者介绍,新提出的模型可用在 Introspection Network、神经图灵机、Least-Recently Used access mechanism (LRU) 和可差分神经计算机(DNC) 。 在新智元微信公众号回复170218,可下载论文。 DeepMind 的研究员们15日在arXiv 上传了一篇论文,名为《记忆时序生成模型》的论文,自称新的模型能在性能上比现在被广泛使用的RNN,比如LSTM ,有显著的提升。 论文作者包括:Mevlana Gemici, Chia-Chun Hung, Adam Santoro, Greg Wayne,Shakir Mohamed, Danilo J. Rezende, David Amos, Timothy Lillicrap 。这是DeepMind内部专攻通用人工智能的研究小组。 在论文摘要中,作者写道: 论文使用远程依赖(long-range dependencies)来解决时序数据建模中的一般问题。在这个研究中,基于时序的间隔和过去的观察,新的观察是完全可预测或部分可预测的。 足够有效的时序模型应该可以将序列的可预测元素和不可预测元素分开,对不可预测元素标示不确定性,并且快速识别可以帮助预测未来的新元素。 为了创建这样的模型,DeepMind 的研究者们提出了一种使用外部记忆系统增强的时序生成模型。它们是在变分推理(variational inference )框架下开发的,提供了实用的训练方法和深入了解模型运作的方法。研究展示了一系列稀疏的、远程时序依赖问题,这些模型从序列的早期阶段开始存储信息,并能有效地对已存储的信息进行再利用。 最终,新的模型在实验中比现有的基于递归神经网络(如 LSTM)的模型在性能上有显著的改进。 那么,这一研究有何意义?我们先来看看RNN是什么。 维基百科上的介绍是,循环神经网络(RNN)是人工神经网络的一种,网络中的单元之间的连接形成有向循环。这创建了网络的内部状态,允许其展现动态时间行为。与前馈神经网络不同,RNN可以使用其内部存储器来处理任意序列的输入。
图来自知乎用户:YJango 常规网络可以将输入和输出以向量对向量(无时间维度)的方式进行关联。而循环层的引入将其扩展到了序列对序列的匹配。从而产生了one to one右侧的一系列关联方式。较为特殊的是最后一个many to many,发生在输入输出的序列长度不确定时,其实质两个循环网络的拼接使用,公共点在紫色的隐藏状态ht+1ht+1。 根据YJango 的介绍,具体应用上: many to one:常用在情感分析中,将一句话关联到一个情感向量上去; many to many:第一个many to many在DNN-HMM语音识别框架中常有用到; many to many(variable length):第二个many to many常用在机器翻译两个不同语言时。 正如上文提到,RNN在当下的深度学习技术中有着非常广泛的应用,从最早的手写字体识别,到后来的语音识别,再到机器翻译等等。 不过,RNN 自身也有一些缺陷,原因在于梯度消失(vanishinggradient)和梯度爆炸(exploding gradient)问题,由此,j2直播,在研究中也延展出了许多新的模型,比如长短记忆网络和门网络等等。目前常见的RNN架构可以分为以下几种: Fully recurrent network Recursive neural networks Hopfield network Elman networks and Jordan networks Echo state network Neural history compressor Long short-term memory Gated recurrent unit Bi-directional RNN Continuous-time RNN 关于生成记忆模型 在DeepMind 的这一研究是基于一种被称为生成记忆模型(Generative Temporal Models )的架构,其中的一大亮点是使用了外部的记忆来增强网络。
在论文中,作者写道:我们在机器翻译应用中使用的许多数据集具有序列性,此外,无论是自然语言、语音处理数据、高清晰度的视频流、医疗诊断中纵向的时间序列数据,还是天气预报中的时空数据。 (责任编辑:本港台直播) |