报码:【j2开奖】深度神经网络中的数学，对你来说会不会太难？(2)_本港台直播_J2开奖直播

卷积神经网络中的另一个通用的部分是池化操作。在执行完卷积并在矩阵索引函数上应用了 g 之后，我们可以用周围函数的均值或最大值替代当前的函数。即设定：

这一技术同时可以应用到降维操作中。

　　模型和优化

下面我们需要了解如何求得神经网络参数，即到底我们该采取什么样的 θ 和怎么样评估θ。对此，我们通常使用概率建模的方法。即神经网络的参数θ决定了一个概率分布 P(θ)，而我们希望求得 θ 而使条件概率 Pθ(y|x) 达到极大值。即等价于极小化函数：

其中可以用期望取代对数似然函数。例如，如果我们将 y 拟合为一个高斯分布，其均值为 f(x;θ)，且带有单位协方差矩阵。然后我们就能最小化平均误差：

那么现在我们该怎样最优化损失函数 J 以取得最优秀的性能。首先我们要知道最优化的困难主要有四个方面：

过高的数据和特征维度

数据集太大

损失函数 J 是非凸函数

参数的数量太多（过拟合）

面对这些挑战，自然的方案是采用梯度下降。而对于我们的深度神经网络，比较好的方法是采用基于链式求导法则的反向传播方法，该方法动态规划地求偏导数以降误差反向传播以更新权重。

另外还有一个十分重要的技术，即正则化。正则化能解决模型过拟合的问题，即通常我们对每一个特征采取一个罚项而防止模型过拟合。卷积神经网络通过参数共享提供了一个方案以解决过拟合问题。而正则化提供了另一个解决方案，我们不再最优化 J(θ)，而是最优化 J(θ)=J(θ)+Ω(θ)。

其中Ω是「复杂度度量」。本质上Ω对「复杂特征」或「巨量参数」引入了罚项。一些Ω正则项可以使用 L2 或 L1，也可以使用为凸函数的 L0。在深度学习中，还有其他一些方法解决过拟合问题。其一是数据增强，即利用现有的数据生成更多的数据。例如给定一张相片，我们可以对这张相片进行剪裁、变形和旋转等操作生成更多的数据。另外就是噪声，即对数据或参数添加一些噪声而生成新的数据。

　　生成模型：深度玻尔兹曼机

深度学习应用了许多概率模型。我们第一个描述的是一种图模型。图模型是一种用加权的图表示概率分布的模型，每条边用概率度量结点间的相关性或因果性。因为这种深度网络是在每条边加权了概率的图，所以我们很自然地表达为图模型。深度玻尔兹曼机是一种联合分布用指数函数表达的图模型：

其中配置的能量 E 由以下表达式给出：

一般来说，中间层级为实数值向量，而顶部和底部层级为离散值或实数值。

波尔兹曼机的图模型是典型的二分图，对应于每一层的顶点只连接直接在其顶部和底部的层级。

这种马尔可夫性质意味着在 h1 条件下，v 分量的分布是和 h2,…,hd 还有 v 的其他分量相互独立的。如果 v 是离散的：

其他条件概率也是相同的道理。

不幸的是，我们并不知道如何在图模型中抽样或优化，这也就极大地限制了玻尔兹曼机在深度学习中的应用。

深度信念网络

深度信念网络在计算上更为简洁，尽管它的定义比较复杂。这些「混合」的网络在本质上是一个具有 d 层的有向图模型，但是它的前两层是无向的：P(h(d?1),h(d)) 定义为

对于其它层，

注意到这里与之前的方向相反。但是，该隐变量满足以下条件：如果

由公式（1）定义，则它们也满足公式（2）。

我们知道怎样通过上面的公式直接对基于其它条件层的底层进行抽样；但是要进行推断，我们还需要给定输入下输出的条件分布。

最后，我们强调，尽管深度玻尔兹曼机的第 k 层取决于 k+1 层和 k-1 层，在深度信念网络，如果我们只条件基于 k+1 层，我们可以准确地生成第 k 层（不需要条件基于其它层）。

　　课程计划

在本课程中，我们主要的讨论主题为：

深度的表现力

计算问题

简单可分析的生成模型

第一个主题强调神经网络的表现力：可以被网络近似的函数类型有哪些？我们计划讨论的论文有：

Cybenko 的「迭加激活函数的近似」（89）。

Hornik 的「多层前馈网络的近似能力」（91）。

Telgarsky 的「深度向前网络的表征优势」（15）。

Safran 和 Shamir 的「Relu 网络的深度分离」（16）。

Cohen、Or 和 Shashua 的「关于深度学习的表现力：张量分析」（15）。

(责任编辑：本港台直播)