“在辛顿等研究者的手中,atv,这些深度神经网络成为了最好的分类器,”耶路撒冷希伯来大学的计算神经科学家兼计算科学家纳夫塔利·蒂希比(Naftali Tishby)评论说,“不过,这一点也同样困扰着机器学习方面的理论家,因为他们还不明白为什么这种网络如此有效。” 深度学习之所以在很大程度上有效是因为大脑也是如此运作的。这种类比还远不够完善;大脑皮质比人工神经网络更加复杂,其内部网络不停运行着未知的算法。在辛顿的突破出现之后的几年里,深度学习由自身出发,向着各个方向形成了分支,它运用各种在生物学上难以置信的算法,解决了许多学习任务上的难题。现如今,辛顿在多伦多大学和谷歌之间巡回工作,他认为机器学习和生物学习之间存在一个关键原则:“学习的时候,你总是从简单的特征开始,开奖,然后基于那些你所学的去理解更复杂的特征,这是一个分阶段的发展过程。” 从夸克到桌子 2010年,当时还在普林斯顿大学担任生物物理学博士后研究员的施瓦布,专门乘坐火车到纽约市去听辛顿介绍深度学习的演讲。辛顿提出的逐层训练过程让他很快想起在物理学领域被广泛使用的一种技术,“一种体现何谓物理学的技术”,施瓦布说。 回到普林斯顿以后,施瓦布打电话给梅塔,问他是否觉得深度学习听起来很像重整化。早在几年之前,两人就通过一个暑期研究项目成了朋友兼合作者,他们经常相互探讨“疯狂的想法”。梅塔并不觉得重整化类比特别疯狂,于是两人开始着手研究这个直觉是否正确。“我们经常在深夜互相打电话,然后就这么一直聊下去,”梅塔说。“我们有些陷入痴迷了。” 重整化是一种从微观到宏观的描述物理学系统的系统化方法,它紧扣影响其大尺度行为的要素,并对其余要素进行平均化。令物理学家感到庆幸的是,大多数最微观的细节都是无关紧要的;比如描述一张桌子,我们不需要知道在亚原子层面的所有夸克之间的相互作用。但是,需要一套复杂精巧的近似方案向上跨过距离尺度,一路上放大相关的细节,同时模糊无关的细节。 最终的突破出现在蒙特利尔爵士音乐节上,当时梅塔和施瓦布正在喝酒。他们决定把重点放在一个被称为变分或“块自旋”(block-spin)的重整化程序上,这个重整化方案是统计物理学家利奥·卡丹诺夫(Leo Kadanoff)在1966年发明的。块自旋方法包括将一个系统内的组分组合成更大的区块,每次重组会取系统中的平均组件。该方法可以很好地描述类分形对象,即在所有尺度或不同分辨等级下,看起来都有相似形态的对象。卡丹诺夫理论里的典型例子便是二维伊辛模型(Ising model),它是一种自旋晶格,或被视为指向上或指向下的微磁极。卡丹诺夫指出,通过从依据自旋状态来描述转变为依据自旋块来描绘,人们可以很容易地对晶格进行放大。 施瓦布和梅塔希望在深度学习的数据层次表征里应用这个方法,他们翻来覆去地研究了卡丹诺夫的那篇老论文以及辛顿及其同事们在2006年发表的两篇详细探讨首个深度学习协议的高引用论文。最终,他们找到了如何把一种程序的数学表达映射到另一个程序中去,进而证明了这两种对世界特征总结的机制本质上是相同的。
由利奥·卡丹诺夫在 1966年发明的一项技术,可用于描述不同分辨水平下的自旋晶格,此项技术等同于一种现代深度学习协议。(图片来源:Quanta Magazine) 为了说明两者的对等性,施瓦布和梅塔训练了一个包含20000例伊辛模型晶格的四层神经网络。从下一层的神经网络到上一层,神经元自发地表征为更大片的自旋区域,并用卡丹诺夫的方法归纳数据。“它从应当进行区域重整化的样本开始学习,”梅塔说。“你不用手把手教它,它自己就能学习,这令我们感到震惊。” (责任编辑:本港台直播) |