其中代表输入信号为的神经元的突触权重()的变化。表示突触后反应,表示学习率。换句话说,“Hebbian学习规则”指出,随着两个单位共同出现频率的增加,两个单位之间的联系会加强。 尽管Hebbian学习规则被视为奠定了神经网络的基础,但今天看来它的缺陷是显而易见的:随着共同出现的次数增加,连接的权重不断增加,主信号的权重将呈指数增长。这就是Hebbian学习规则的不稳定性(Principe et al., 1999)。幸运的是,这些问题没有影响Hebb作为神经网络之父的地位。 ErkkiOja扩展了Hebbian学习规则以避免不稳定性,并且他还表明,遵循此更新规则的神经元的行为,近似于Principal Component Analyzer(PCA)的行为(Oja, 1982)。 FrankRosenblatt通过引入感知器的概念进一步实现了Hebbian学习规则(Rosenblatt, 1958)。像Hebb这样的理论家专注的是自然环境中的生物系统,而Rosenblatt构建了一个名为感知器的电子设备,它具有根据关联进行学习的能力。 早期神经元模型和现代感知器之间的一个区别是非线性激活函数的引入。 将感知器放在一起,就变成了基本的神经网络。通过并列放置感知器,我们能得到一个单层神经网络。通过堆叠一个单层神经网络,我们会得到一个多层神经网络,这通常被称为多层感知器(MLP )(Kawaguchi, 2000)。单层神经网络具有局限性,正是这种局限性导致了相关的研究曾经一度停滞了进二十年,但同时,也正是这种局限性刺激了神经网络向更高层结构进发,渐渐迎来了如今的深度学习时代。 深度学习的理论基石universal approximation,以及关于“深度”的讨论 神经网络的一个显著特性,即众所周知的通用逼近属性,可以被粗略描述为MLP可以表示任何函数。可以从以下三方面探讨这一属性: 布尔逼近:一个隐藏层的MLP可以准确的表示布尔函数; 连续逼近:一个隐藏层的MLP可以以任意精度逼近任何有界连续函数; 任意逼近:两个隐藏层的MLP可以以任意精度逼近任何函数。 universal approximation成为如今神经网络与深度学习一片繁荣景象的重要理论基石,universal approximation的相关理论——一个多层神经网络具备表达任何方程的能力——已经成为深度学习的标志性特点。本章节的一个最大的贡献在于将过去在这个问题上的相关理论研究工作加以整理,分三个脉络阐释了三种不同的universal approximation。作者重新整理了从上世纪八十年代末期到本世纪初期的相关理论工作,把原本艰深晦涩的理论证明以形象的语言重新描述出来。如图1所示,无数个线性decision boundary组合叠加可以制造出圆形边界,而无数个圆形边界的叠加何以逼近任何一个方程。
图1 浅层神经网络的通用逼近属性以呈几何级数增长的神经元为代价,因此是不现实的。关于如何在减少计算单元数量的同时维持网络的表达力,这个问题已被追问多年。从直觉出发,Bengio和Delalleau(2011)认为追求更深的网络是自然的,因为1)人类神经系统就是一个深层次的结构;2)人类倾向于将一个抽象层次的概念表示为较低层次的概念组合。今天,我们的解决方案是建立更深的结构,这一方案的理论支撑是,要想达到一个具有多项式的k层神经网络的表达能力,如果使用k-1层结构,则神经元的数量需要以指数级增长。不过,理论上,这仍是一个尚未最终证明的结论。但这仍可以看出,深度学习中“深度”二字的重要性:从姚期智老师1985年的工作,到Yoshua Bengio近几年的成果,无一不在重复“深度”的价值。在深度学习炙手可热的今天,在还有很多同学讨论“深度”的必要性的今天,我们建议相关的老师和同学们仔细审视前人的成果。 深度生成模型 第四节到第七节是本文最激动人心的章节。第四节重点介绍了Generativemodel的进化过程。从八十年代的Self Organizing Map到 Hopfield Network, 再到鼎鼎大名的BoltzmannMachine和RestrictedBoltzmann Machine,直到Hinton塑造的Deep Belief Network。深度学习的研究一路走来,悠长的历史之中,作者带领我们研读了这几个璀璨明星的诞生过程,以及这些作品诞生时的内在联系。 图2总结了本节将涉及的模型。 水平轴代表这些模型的计算复杂度,而垂直轴代表表达能力。 这是六个里程碑式的模型。
图2 (责任编辑:本港台直播) |