无需数学背景，读懂ResNet、Inception和Xception三大变(3)_本港台直播_J2开奖直播

最早的 Inception 论文确实引用了来自电影《盗梦空间（Inception）》的「我们需要更深」的互联网模因作为其名字的来源，参见：。这肯定是 knowyourmeme.com () 第一次出现在一篇谷歌论文的参考文献里。

第二篇 Inception 论文（提出 v2 和 v3）是在最早的 ResNet 论文发布之后的第二天发布的。2015 年 12 月真是深度学习的好日子。

Xception

Xception 表示「extreme inception」。和前面两种架构一样，它重塑了我们看待神经网络的方式——尤其是卷积网络。而且正如其名字表达的那样，它将 Inception 的原理推向了极致。

它的假设是：「跨通道的相关性和空间相关性是完全可分离的，最好不要联合映射它们。」

这是什么意思？在传统的卷积网络中，卷积层会同时寻找跨空间和跨深度的相关性。让我们再看一下标准的卷积层：

无需数学背景，读懂ResNet、Inception和Xception三大变

在上图中，过滤器同时考虑了一个空间维度（每个 2×2 的彩色方块）和一个跨通道或「深度」维度（4 个方块的堆叠）。在输入图像的输入层，这就相当于一个在所有 3 个 RGB 通道上查看一个 2×2 像素块的卷积过滤器。那问题来了：我们有什么理由去同时考虑图像区域和通道？

在 Inception 中，我们开始将两者稍微分开。我们使用 1×1 的卷积将原始输入投射到多个分开的更小的输入空间，而且对于其中的每个输入空间，我们都使用一种不同类型的过滤器来对这些数据的更小的 3D 模块执行变换。Xception 更进一步。不再只是将输入数据分割成几个压缩的数据块，而是为每个输出通道单独映射空间相关性，然后再执行 1×1 的深度方面的卷积来获取跨通道的相关性。

无需数学背景，读懂ResNet、Inception和Xception三大变

其作者指出这本质上相当于一种已有的被称为「深度方面可分的卷积（depthwise separable convolution）」的运算，它包含一个深度方面的卷积（一个为每个通道单独执行的空间卷积），后面跟着一个逐点的卷积（一个跨通道的 1×1 卷积）。我们可以将其看作是首先求跨一个 2D 空间的相关性，然后再求跨一个 1D 空间的相关性。可以看出，这种 2D+1D 映射学起来比全 3D 映射更加简单。

而且这种做法是有效的！在 ImageNet 数据集上，Xception 的表现稍稍优于 Inception v3，而且在一个有 17000 类的更大规模的图像分类数据集上的表现更是好得多。最重要的是，它的模型参数的数量和 Inception 一样多，说明它的计算效率也更高。Xception 非常新（2017 年 4 月才公开），但正如前面提到的那样，这个架构已经在通过 MobileNet 助力谷歌的移动视觉应用了。

有趣的事实：

Xception 的作者也是 Keras 的作者。Francois Chollet 是真正的大神。

未来发展

这就是 ResNet、Inception 和 Xception！我坚信我们需要对这些网络有很好的直观理解，因为它们在研究界和产业界的应用越来越普遍。我们甚至可以通过所谓的迁移学习将它们用在我们自己的应用中。

迁移学习是一种机器学习技术，即我们可以将一个领域的知识（比如 ImageNet）应用到目标领域，从而可以极大减少所需要的数据点。在实践中，这通常涉及到使用来自 ResNet、Inception 等的预训练的权重初始化模型，atv，然后要么将其用作特征提取器，要么就在一个新数据集上对最后几层进行微调。使用迁移学习，atv，这些模型可以在任何我们想要执行的相关任务上得到重新利用，从自动驾驶汽车的目标检测到为视频片段生成描述。

要了解迁移学习，Keras 有一个关于微调模型的很棒的指南：https://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html。如果你对此有兴趣，一定不要错过！

原文链接：https://medium.com/towards-data-science/an-intuitive-guide-to-deep-network-architectures-65fdc477db41

(责任编辑：本港台直播)