参与:Jane.w、沈泽江、李泽南
摘要 当前 ImageNet 计算机视觉识别挑战的最前沿的技术是残差神经网络(residual network)。如利用快捷连接(shortcut connection)的研究方法已经在残差网络和 highway network 的衍生模型中得到大量应用。这些研究潜在地挑战了我们对 CNN 学习浅层(layer)的局部特征(local feature)与深层越来越多的全局特征(global feature)的认识。通过定性可视化和经验性分析(empirical analysis),我们探索了残差跳跃连接(residual skip connection)的意义。正如预期判断,我们的评估显示残差快捷连接能够强制图层来精炼(refine)特征。我们还提供了另一种可视化表达方式,进一步证明了残差网络大体上能学习已知的 CNN 所具有的直观功能。 1.导语 2015 年,深度残差网络在 ILSVRC 分类比赛中获得了第一名。我们尝试理解启发何恺明等人使用快捷连接和恒等映射(identity mapping)的网络架构的定性特征。为此,我们可视化了 2 幅残差构造块(residual building block)之后的特征图:一幅是最大化地激活了给定通道中的单元(unit)的前 9 个图像组,另一幅是对应的激活单元所用的有导向的反向传播(guided backpropagation)的可视化。 从这些可视化可以直观地证明何恺明等人的判断,即从预处理层(preconditioning layer)到恒等映射是有帮助的,并且与恒等映射相关函数更容易学习得到。特别的是,我们观察到相同维度的残差层学习得到的特征更加精炼和锐化。 1.1 相关研究 Zeiler 等人在 AlexNet 特征上进行了相似的可视化,他们的研究引入了去卷积变换(deconvolutional transformation),其中包括了采取激活期望的单位进行可视化并通过一系列去卷积步骤向后反向移动。与从像素空间(pixel space)映射到特征空间(feature space)不同,去卷积变换是从特征空间映射到像素空间。为了通过最大池化(max-pooling)向后反向移动,进行了一个反池化(unpooling)步骤,其中被选择的单元作为正向传递 (forward pass) 中的最大单元被分配了反向传播的值。为了进行去卷积计算,使用与卷积层学习得到的相同的参数来进行转置卷积 (transposed convolution)(也称为分数跨度卷积/fractionally strided convolution)。最后,通过整流(rectification)反向移动,并做反向输入数据的整流。这种方法在像素空间中构建了对给定激活单元的贡献最大的图像部分的可视化。 建立在去卷积方法的基础上,Springenberg 等人开发了有导向的反向传播。有导向的反向传播是去卷积方法的改进,在向前路径中被整流为零的单位(因为它们具有负值)在去卷积通道中也被设置为零。这被证明在视觉上 Springenberg 等人的网络优于基于去卷积的可视化。 最后,Yosinski 等人使用各种方法将 AlexNet 可视化,包括以前的方法和优化来综合地生成最大激活图像
图 1:左侧:基本的 shortcut 模块。右侧:投影的 shortcut 模块。 2 实验和架构 我们使用的 CNN 架构是预训练的 50 层残差网络。可以在线查看架构的可视化: 这种残差架构由单个卷积层(conv1)、一个最大池化层、一系列残差的快捷构建模块组成。如图 1 所示,有两种残差快捷模块。第一种由 1x1、3x3 和 1x1 的卷积层组成,开奖,一个快捷连接将每个输入数据添加到 1x1 卷积以及将输出添加到最终的 1x1 卷积。这决定了堆叠的 3 层网络向特性映射的转变。 第二种称为投影的快捷模块。它由相同的卷积层堆叠组成,现在除了 shortcut 还包含单个 1x1 卷积。 50 层残差架构由初始预投影块(2a)、两个基本块(2b,2c)组成。下面还含有一个投影块(3a)和一系列基本块(3b,3c)。该架构方式重复两次或更多次(4a,4b,4c,4d,4e,4f。以及:5a,5b,5c)。 另外两个差异与投影的快捷模块相关:由于步长(stride)为 2 同时信道(channel)数量增加,空间维度有所减小。这意味着以相同编号命名的构件块(building block)(例如 2a,2b 和 2c)包含相同数量的输出信道。 对于我们的可视化,我们使用 Yosinski 等人的代码,并分别针对残差网络和有导向的反向传播修改编程代码,使它应用于有导向的反向传播而不是反卷积。 (责任编辑:本港台直播) |