本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【组图】重磅论文 | 解析深度卷积神经网络的14种设计模式(附下载)(3)

时间:2016-11-05 19:30来源:天下彩论坛 作者:开奖直播现场 点击:
设计模式 9:规范层输入(Normalize layer inputs)是另一个简化层任务的方法:使层输入标准化。已经显示,层输入的标准化能改善训练结果和提高准确性,但

设计模式 9:规范层输入(Normalize layer inputs)是另一个简化层任务的方法:使层输入标准化。已经显示,层输入的标准化能改善训练结果和提高准确性,但是潜在机理并不清楚(Ioffe & Szegedy 2015, Ba et al. 2016, Salimans & Kingma 2016)。Batch 标准化的论文(Ioffe & Szegedy 2015)将提高归因于解决内部协变量偏移问题,而流标准化(streaming normalization)的作者(Liao et al. 2016)认为这也许是其它原因造成的。我们认为标准化使所有输入样本更加平等,就好像它们通过单位转换进行缩放一样,这使得反向传播(back-propagation)训练更有效。

一些研究,如 Wide ResNets(Zagoruyko & Komodakis 2016),显示增加信道(channel)的数量提高了性能,但是多余的信道会产生额外的代价。许多基准数据集的输入数据有 3 个通道(即颜色 RGB)。几乎是普遍现象,CNN 的第一层的输出增加了信道的数量。设计模式 11:转换输入。增加信道的几个例子 / ImageNet 的第一层输出的数量分别为 AlexNet (96),Inception (32),VGG (224),以及 ResNets (64)。直观上讲,第一层中信道数量从 3 增加是合理的,因为它允许以多种方式检查输入数据,但是不清楚使用多少个过滤器。另一个是成本与精确度的权衡。成本包括网络中的参数的数量,这直接反映在训练的计算量和存储成本中。增加信道数量会增加成本,这导致设计模式 10:可用资源决定网络深度。除了在下采样(down-sampling)时使输出数量加倍(见设计模式 13),根据内存、计算资源和期望的精确度来选择第一层的深度。深度学习的计算开销很高,每个从业者必须平衡这些成本与其应用程序的性能。

3.2.1 分支连接:串联、求和/平均与 Maxout

当存在多个分支时,有三种方法来合并输出:串联、求和(或平均)与 Maxout。目前看来研究人员对它们的看法各不相同,没有哪一种方式更具优势。在本节中,我们提出一些简单的规则来决定如何合并分支。

求和是合并输出的最常见方法之一:求和/平均将分支间的近似工作分割,最终形成设计模式 12:求和连接(Summation Joining)。求和是残差网络的最佳连接机制。因为它允许网络计算校正项(即残差)而无需整个信号。sum 和 fractal-join(平均)之间的差异最好通过 drop-path 来理解(Huang et al.,2016)。在输入跳跃连接总是存在的残差网络中,求和能使卷积层学习残差(与输入的差)。另一方面,在具有若干分支的网络中,如 FactalNet(Larsson et al.,2016),使用均值是最佳方式,因为随着分支被随机丢弃,它可以保证输出平顺。

一些研究者似乎更喜欢串联(concatenation,例如 Szegedy et al,2015)我们相信串联对于增加池化时的输出数量是最有用的,这让我们得到了设计模式 13:下采样过渡(Down-sampling Transition)。这就是说,当池化或使用步幅(stride)超过 1 的下采样时,atv,组合分支的最好方法是串联输出信道,它可以平滑地实现通常以下采样方式实现的信道连接和信道数量增加。

Maxout 已经被用于竞争,如本地竞争网络(Srivastava 等人,2014)和多尺度竞争网络(Liao 与 Carneiro,2015)Maxout 只选择一种激活,形成设计模式 14:MaxOut for Competition。它与求和或平均「合作」的激活方式相反,其中存在「竞争」关系,只有一个「赢家」。例如,当分支由不同大小的核(kernel)组成时,Maxout 可用于尺度的不变性,这类似于最大池化(max pooling)的平移不变性。

我们认为所有这些连接机制可以同时加入单独网络,不同于典型情况。

  

wzatv:【j2开奖】重磅论文 | 解析深度卷积神经网络的14种设计模式(附下载)

图 1:这是 FractalNet 模块(a)和 FoF 架构(b)。曾表示如下:卷积层粉红色,连接层(如均值)是绿色,池层是黄色,预测层是蓝色。(b)中的灰色模块表示(a)中的 FractalNet 实例。

4 实验

4.1 架构创新

本论文的重点是阐明基本设计原则,这样做的原因就是帮助我们发现一些架构上的创新,在本节中,这些创新将进一步被描绘出来。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容