我们人类掌握了特殊的诀窍,能够分辨出灌木丛中的一只猫咪,人群中一张熟悉的面孔,或者我们周围被颜色、质地和声音包围的任意目标。这种生物学上的学习过程和机器的深度学习之间的强烈相似性表明,大脑也采用了某种形式的重整化来理解世界。 “从数据中提取相关的特征,也许这里面存在一种普遍的逻辑,”梅塔表示,“我认为这是一个暗示,它告诉我们或许有类似的东西存在。” 施瓦布、梅塔和其他研究者认为,在对象或语音识别的背后,物理学家的技巧和学习过程在哲学上具有相似性,上述发现使得这种观点得以正式化。重整化的过程被施瓦布形容为“把一个非常复杂的系统精炼成它的基本部分”,他说:“这也就是深度神经网络和我们的大脑同样在努力做的事。” 分层学习 十年前,深度学习似乎并未获得成功。运行程序的计算机模型往往不能识别照片里的对象或音频记录里的口头用语。 英国多伦多大学的计算机科学家杰弗里·辛顿(Geoffrey Hinton)和其他研究者,已经设计出一种在多层虚拟神经元网络上运行的程序,该神经元网络能够通过“放电”开关,发送信号至相邻的网络层。这种“深度”神经网络的设计灵感来自于人脑里视觉皮层的层级结构——该脑皮层能将光子流转换成有意义的感知。 当一个人看到猫穿过草坪时,大脑的视觉皮层会把这个场景分层解析,即每一连续层的神经元进行放电,以响应更大规模且更明显的特点。起初,如果检测到视野区域内的对比差别,即表明物体的边缘或端点位置,视网膜上的神经元就会放电并发出信号。这些信号会传输到更高一层神经元,这些神经元对边缘和其他越来越复杂部分的整合较为敏感。当信号继续向上传递时,比如一根猫胡须的视觉信号可能就匹配上了另一根胡须的信号,它们可能会和猫咪那尖耳朵的视觉信号整合,最终触发顶层神经的激活,于是对应了一只猫的概念。 辛顿早在十年前就开始尝试复制上述过程,他认为正是由于该过程的存在,发育中的婴儿大脑才越来越善于协调传感数据的明确相关性,比如学习如何把图像里猫的胡须与耳朵整合在一起,而不是背景里的花朵。辛顿试图应用一些简单的学习规则来训练深度神经网络,以达成这一目的,这些规则是二十世纪八十年代由他和神经科学家特里·谢诺沃斯基(Terry Sejnowski)提出的。当声音或图像传入深度神经网络的底层时,数据便会触发放电活动的瀑布效应。一个虚拟神经元的放电也会触发相邻层级上的互连神经元的放电,其强度取决于两个单元连接的强度。这种连接最初被随机分配了一些强度值,但是当两个神经元一同被数据激活时,辛顿和谢诺沃斯基的算法就会主动强化它们之间的连接,以增强这种连接继续成功传递信号的几率。相反,如果两个神经元之间的连接很少被用到,那么算法将会弱化该连接。随着更多图像或声音得到处理,神经元之间的连接模式会在网络里逐渐成型,就像支流系统通过各层级慢慢向上汇聚。在理论上,支流最终将汇聚到少数顶层神经元,并以声音或物体类别的形式表现出来。 问题是,在从底层网络层传到顶部类别的过程中,数据开拓路径会花太长的时间。也就是说,算法效率不够高。 在随后的2005年,辛顿和他的同事们从大脑发育的一个侧面获得灵感,从而设计了一套新的训练方案。事实上,上世纪六十年代还在剑桥大学上学的时候,辛顿就首次接触到了大脑发育这方面的知识。当时,生物学家柯林·布莱克摩尔(Colin Blakemore)通过解剖猫的大脑发现,视觉皮层是分阶段发育的,它会从视网膜开始,通过对感官数据的响应来调整其神经连接,每次一层。 为了复制大脑视觉皮层逐步发育的特征,辛顿将学习算法在他的网络中逐次每层地运行,即先训练每一层的连接,再将输出结果——相当于原始数据更为粗略的表征——作为上一层训练的输入数据,然后再对网络进行整体上的微调。这种学习过程的确变得更加高效。很快,深度学习就打破了图像和语音识别领域的准确性记录。谷歌、Facebook和微软也纷纷展开了致力于此的整体研究计划。
大卫·施瓦布,美国西北大学物理系助理教授(供图:大卫·施瓦布) (责任编辑:本港台直播) |