【新智元导读】近日,在台湾大学,卷积神经网络之父、FacebookAI 研究院院长 Yann LeCun 以「Deep Learning and the Path to AI」为题,对深度学习目前的发展现状和面临的最大挑战、以及应对方法进行了综述和分析。 6 月 29 日,台湾大学。卷积神经网络之父、FacebookAI 研究院院长 Yann LeCun 以「Deep Learning and the Path to AI」为题,对深度学习目前的发展现状和面临的最大挑战、以及应对方法进行了综述和分析。新智元结合台湾大学在 Facebook 上公布的视频、台湾科技媒体 iThome 的报道,以及 Yann LeCun 今年早些时候在爱丁堡大学的演讲资料,为您综合介绍。 深度学习的特点在于“整个程序都是可训练的” 演讲从模式识别(Pattern Recognition)的起源说起。1957年,Perceptron 诞生,成为第一个 LearningMachine。LeCun 说,目前的机器学习算法大多衍生自 Perceptron的概念。 从那时起,模式识别的标准模型就可以分为 3 步走:1.程序被输入一张图像,通过特征提取,将图像特征转换为多个向量;2. 输入这些向量到可训练的分类器中;3.程序输出识别结果。 他表示,机器学习算法其实就是误差校正(Error correction),通过调整权重,来进行特征提取。也就是说,如果输入一张图,atv,算法识别后,结果值低于预期类别的值,工程师就将输入的图增加 Positive 的权重,减少 Negative 的权重,来校正误差。 深度学习是当今最广泛使用的模式识别方法。LeCun 认为深度学习的特点在于“整个程序都是可训练的”。他解释,构建深度学习的模型不是用手动调整特征提取的参数来训练分类器,而是建立一群像小型瀑布般的可训练的模组。 当开发人员将原始的影像输入系统后,会先经过初步的特征提取器,产生代表的数值,在这一个阶段可能会先识别出一些基本的纹理,接下来这些纹理的组合会再被拿来识别更具体的特征,像是物件的形体或是类别,整个训练的过程就是不断地经过一层又一层这样的模型,每一层都是可训练的,所以我们称这个算法为深度学习或是端到端训练(End to End Running)。 LeCun 解释,深度学习模型之所以工作良好,是因为现在的影像都是自然景象加上其他物体,也就是混合型的图像,而每个物体又由不同的特征所组成,会有不同的轮廓和纹路,图片的像素也是一个问题,因此,可以将影像分级成像素、边缘、轮廓、元件和物件等,初级的特征提取会先侦测出影像中最基本的轮廓,比如明显的纹路和色块,进一步的特征提取则是将上一层的结果组合再一起,拼成一个形体,最后再拼成一个物体。 这种分层式的组合架构(Hierarchical Compositionality)其实不只适用于影像,LeCun说明,它对文字、语音、动作或是任何自然的信号都适用,这种方式参考了人脑的运作模式。大脑中的视觉中枢,也是用类似分层式的组合架构来运行,当人类看到影像后,由视网膜进入到视丘后方外侧膝状体,再到大脑中主要的视觉中枢,最后来到颞叶皮质,人类看图像也是由大脑经过多层的结构,在100毫秒内就能识别图片。 深度学习的问题在于如何训练,在1980年代中期,误差反向传播算法(Back Propagation Algorithm)开始流行,但其实误差反向传播算法很早就被提出来,只是当时没有受到重视。误差反向传播算法一开始先经过简单线性分类,再将这些结果带到非线性的线性整流函数(Rectified Linear Unit,ReLU),线性整流函数就是找到要调整参数的方向,来减少错误判断,不过现在都已经有可用的套件或是框架,像是Torch、TensorFlow 或是 Theano等,还有一些套件是可用来计算输出结果和预期结果之间的误差。 Yann LeCun认为,现在要撰写机器学习算法并不难,用 3 行 Python 就可以完成,不过这还停留在监督式学习阶段,所谓的监督式学习就是输入大量的训练样本,每一套训练样本都已经经过人工标注出原始图片和对应的预期结果。以影像处理为例,训练集由多个(X,Y)参数组成,X就是影像的像素,Y则是预设的识别结果类别,像是车子、桌子等,之后再用大量的测试集来测试程序,若判断结果正确,不用调整,若判断有误则调整程序中的参数。 监督式机器学习存在二大问题 (责任编辑:本港台直播) |