报码:深度学习入门：几幅手稿讲解CNN(2)_本港台直播_J2开奖直播

在神经网络中，层与层之间的连接分为全连通（fully-connected）与局部连通（local connected）两种。一些比较古老的文献认为局部连通的计算形式可以用卷积的形式来表示，所以错误地把这种经过简化计算的局部连通网络称为卷积网络。

局部连通与全连通相比，参数数量要少得多，所以在过去计算机性能不佳时是一个比较有效的性能优化有段。但与此同时，局部连通也不可避免地引入了只有相邻节点（

、

）的输出才与下层节点（

）有关的约束，对大多实际问题是不合理的。

直到Dropout的出现，结合了二者的优点，同时还提高了网络的泛化能力，成为目前十分流行的技术。

报码:深度学习入门：几幅手稿讲解CNN

对于一个机器学习算法来说（也可以推广到其他领域的算法），最关键的三点是模型、数据和误差函数。

模型即确定输入、参数与输出之间的关系；数据即我设计的模型是针对什么样的数据，期望得到什么样的输出；误差函数是评价一个算法好坏的关键，需要用明确的表达式合理地衡量实际输出与理想输出之间的差异。

前文说过，寻找一个最优函数f的过程，即寻找一个使误差e最小的参数W的过程。如果我们规定的误差e是可微的，那么最优参数

必然落在误差函数的驻点处（e对W的偏导等于0）。但是稍微复杂一点的问题都无法一下子确定最优参数

，我们只能从一个猜测的

出发来寻找最优值。这就很自然地引入了梯度下降法（Gradient Descent）。

对于一个可微函数（误差函数），其上任意一点处的偏导大小代表该点处切线斜率大小，方向（正负号）代表这条切线是向上还是向下的。因为我们需要在变量W的方向上寻找最低点，所以要向梯度方向的反方向（即下降方向）进行搜索。

需要注意在一些问题中，误差越大并不代表错误得越离谱，而是为了对模型的纠正过程中施加一个更大的作用力。

网络上有很多关于梯度下降法的介绍，这里不再赘述。推荐阅读An overview of gradient descent optimization algorithms来了解一些常用的梯度方法。

报码:深度学习入门：几幅手稿讲解CNN

这张图来自李宏毅老师的PPT，是为了说明可能会造成训练收敛缓慢的原因。在函数平缓的区域，由于偏导本身数值很小，会导致参数的更新量也很小，这时就需要比较大的步长。

在鞍点时，某一轴上是极小点，但在其他轴上并不是极小点，但由于误差函数形式的原因（比如涉及到对误差取偶数次幂），会表现为在鞍点周围误差都大于鞍点，所以使得训练过程误“收敛”于鞍点。由于大量的局部极小点和鞍点的存在，深度神经网络训练的调参也是一个十分精细的工作。

关于在鞍点方面的分析，请参考Identifying and attacking the saddle point problem in high-dimensional non-convex optimization。

论文链接：

https://arxiv.org/abs/1406.2572

报码:深度学习入门：几幅手稿讲解CNN

深度神经网络一般用反向传播训练方法（Back Propagation）来迭代地更新参数。上图是以线性网络为例解释BP的计算过程，公式应该可以自明，我就不用文字赘述了。

对于卷积网络，其实计算过程是相同的，只不过把偏导项之间的乘法替换为卷积（卷积核在水平和竖直翻转之后的卷积）。推荐阅读Backpropagation in Convolutional Neural Network了解CNN中BP算法的细节。

报码:深度学习入门：几幅手稿讲解CNN

当训练结果不好时，可能会有两种结果，欠拟合与过拟合。欠拟合是指模型不足以对训练集产生比较高的分类精度，从误差-迭代曲线上表现为无论是训练期间还是测试期间，误差都比较高。

这说明模型对特征的提取不够，不足以用来描述样本间的差异。这时一般需要优化方法来解决这个问题，比如改变激活函数、误差函数，或者换一种梯度下降方法（以及调整梯度方法的参数）。

过拟合是指模型对训练集有比较高的分类精度，但对测试集表现不佳，从误差-迭代曲线上表现为在训练期间误差能够收敛到一个较小值，但测试期间误差却比较大。

(责任编辑：本港台直播)