报码:深度学习入门：几幅手稿讲解CNN(3)_本港台直播_J2开奖直播

这说明模型过分地依赖训练样本的特征，对没有遇见过新样本不知所措，缺乏泛化能力。这时需要正则化方法来提高模型对一般性样本的适应性，比如Dropout和Batch Normalization。

误差不收敛的一个更常见的原因——尤其是在一个新模型刚刚建立时——是梯度消失或梯度爆炸。

在网络中缺少比较可靠的正则化技术时，在网络不断迭代训练的过程中（甚至第二次迭代开始）会发现新样本产生的误差梯度在反向传播的过程中越来越小（或越来越大），有时呈现每一两层就减小（或增大）一个数量级。

梯度趋向消失时，无论训练多久，会发现最浅层（前一两层）的参数与初始值并没有太大变化，这就使得浅层的存在失去了意义，而且这也会使训练过程变得非常缓慢。梯度爆炸时，仅仅几次迭代之后就会发现某一层所有节点的输出都变成了1（或者十分接近于1），这时网络也就失去了分类的能力。

报码:深度学习入门：几幅手稿讲解CNN

既然已经知道网络的输入和参数会影响最终输出的误差，那么也就可以假设我们可以在一个三维坐标上画出三者的关系。如图中所示，当参数（parameter）固定时，每输入不同的样本（sample），就会产生不同的误差（loss），因为真实样本x与理想样本

相比总是存在误差的。

而对于同一个样本，变化的参数一般也会产生变化的误差。所以训练网络的过程实际上是在sample和parameter两个轴上不断变化时找到loss的最低点。

在训练模型时，一般会将训练集等分为若干小集合（mini-batch），一次将一个mini-batch输入网络，计算完所有mini-batch后——如果觉得网络精度还达不到要求——将所有样本随机排序，再分割为若干mini-batch进行训练。

这个过程可以看作在sample轴上随机跳跃，在parameter轴上逐步前进地搜索，能够尽可能地保证搜索到的最低点是所有样本的最低点。

报码:深度学习入门：几幅手稿讲解CNN

特征提取是一个分类器的核心，深度学习的优势就在于它能自动从原始数据提炼出特征，并以层级的逻辑组合这些特征来描述原始样本。我在最后一幅图中用一个简单的例子来说明CNN的层级结构是如何解决图像分类问题的。

假设我们需要用机器视觉方法对图A（两个三角形构成松树的形状）和图B（两个三角形构成钻石的形状）进行区分。

在神经网络方法出现之前，一种比较可行的方法是通过图像处理中的直线检测方法找到图像中所有直线，然后通过直线参数之间的关系来确定如下判断规则：如果下面的三角形尖角朝上，即为松树；如果尖角朝下，即为钻石。

经过细致的调参，这个算法应该已经可以完美解决区分图A与图B的问题了。如果现在又来了一副图C（也许是两个三角形水平排列构成小山的形状，也可能根本不包含三角形），需要用之前的算法来同时区分这三幅图片，怎么办？

好在我们可以用CNN来解决这个问题。

首先需要注意，我在这一小节所指“卷积”实际上是滤波操作，因为卷积涉及翻转，不利用直观理解。

假设我们训练好的网络有两层隐层，第一层包含两个节点（图中第二列蓝色图形，分别为一条左斜线与一条右斜线），第二层包含四个节点（图中第四列蓝色图形，分别为一条水平线，一条竖直线，一条左斜线与一条右斜线）。

图A经过第一隐层，得到图中第三列黑色的图形。黑色的圆点代表原始图像中对某个卷积核激活值高的区域，白色代表激活值低的区域。图A松树左侧的两条斜边经过“左斜线”卷积核计算得到位于图像左侧的两个黑色圆点，其他区域都不符合“左斜线”这个特征，所以输出值全部忽略为0。

同时，只有松树右侧的两条斜边会对“右斜线”卷积核产生高激活（得到两个位于右侧的黑色圆点），其他区域产生的激活都为0。

同理，图B钻石图像经过“左斜线”与“右斜线”卷积核产生两幅不同的图像（一副在左上和右下有黑点，一副在右上和左下有黑点）。这时，第一层的计算就完成了。

与一般的CNN模型一样，我们把第一层的结果（图中第三列）输入第二隐层之前要缩小一下图像的尺度。经过缩小之后（你可以眯起眼睛离屏幕稍远些观察），第三列的四个图形分别变成了一条在左侧的竖线，一条在右侧的竖线，一条右斜线和一条左斜线。

现在，我们拿第二层的四个卷积核（第四列蓝色图形）来对这四个结果进行卷积再求和。

为了简化，如果在图像中存在一个区域使其与某卷积核的激活输出值较高，就将该卷积核的对应输出记为1；如果不存在这样的一个区域即记为0。

这样，图中第三列第一个图像对四个卷积核分别产生(0，第二个图像产生(0，所以图A的最终结果是这两个向量的和，为(0。而图B的结果为(0。

虽然图A与图B有相似之处，但经过两次卷积得到的向量是完全不同的，通过这两个向量，我们就能唯一地确定图A与图B。

(责任编辑：本港台直播)