本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:【组图】重磅论文 | 解析深度卷积神经网络的14种设计模式(附下载)(4)

时间:2016-11-05 19:30来源:天下彩论坛 作者:开奖直播现场 点击:
首先,我们建议将求和/平均、串联和 maxout 连接机制与单一架构中的不同角色结合起来。接下来,通过增加分支的设计模式 2 来让我们能够大规模修饰 F

首先,我们建议将求和/平均、串联和 maxout 连接机制与单一架构中的不同角色结合起来。接下来,通过增加分支的设计模式 2 来让我们能够大规模修饰 FractalNet 架构的顺序。最后按照我们称之为 Fractal of FractalNet (FoF) 网络,也就是 1b 中展示的分形模式调整模块,而不是按照最大深度来调整。该架构可将深度替换成更大数量的路径。

4.1.1 Freeze-Drop-Path 和 Stagewise Boosting Networks(SBN)

Drop-path 是被 Huang 等引进的(2016b). 它通过迭代训练随机移除分支路径,就好像这条路径在整个网络中是不存在的。出于对对称性的考虑,我们使用了一个叫 freeze-path 的相反的方法。我们冻结权重来达到零的学习率(learning rate),而不是在训练期间直接移除网络中的分支路径。循环神经网络领域也已经有一种类似的想法被提了出来 (Krueger et al. 2016)。

我们称结合了 drop-path 和 freeze-path 效用的模型为 freeze-drop-path,这个可以在非随机情况下得到很好的解释。图 1 显示了一个 FractalNet 分形结构。我们从最左侧路径开始训练,并将 drop-path 应用到其他分支上面。这个分支的训练速度会很快,因为相对于整个网络只需要训练少量的参数。随后冻结那条分支路径的权重并激活在原来右边的一条分支路径。最左边的分支也就可以提供一个很好的近似函数,并且下一条分支也能在矫正的基础上运行了。因为下一个分支路径相比前一个包含了更多的层,所以和原来的相比更容易逼近矫正项的近似值,因此这样的分支允许网络获得更大的准确性。这样也就可以继续从左至右来训练整个网络。freeze-drop-path 将最后加入 FoF 架构(图片 1b),这个称之为梯度递增网络(Stagewise Boosting Networks (SBN)),因为它就是类似于梯度递增的(Friedman et al. 2001)。递增神经网络 (boosting neural network;Schwenk & Bengio 2000) 并不是个新概念,但是这个构架就是新的。在 B 部分我们将讨论测试的实施。

4.1.2 泰勒级数网络(Taylor Series Netwroks,TSN)

泰勒级数是一个经典的、众所周知的函数逼近方法。泰勒级数的扩展是:

由于神经网络也是函数近似,将网络的分支(branch)看成一个泰勒级数展开的项,它可以作为 SBN 的延伸。这意味着,在求和连接单元(summation joining unit)之前使第二分支的结果平方,类似于泰勒展开中的二阶项。类似地,使第三分支立方。我们将它称作「泰勒级数网络」(TSN),并且存在多项式网络的优先级(Livni et al. 2014)和网络中的乘式项(例如 Lin et al. 2015 年的论文)。TSN 与 SBN 类比的实现细节详见附录讨论。

4.2 结果

该章节内的实验主要是验证上面提到的架构创新的验证,但并非完全进行测试。未来会有更完整的评估。

  

wzatv:【j2开奖】重磅论文 | 解析深度卷积神经网络的14种设计模式(附下载)

表 1:在 CIFAR-10 和 CIFAR-100 上各种架构的测试准确率对比。

  

wzatv:【j2开奖】重磅论文 | 解析深度卷积神经网络的14种设计模式(附下载)

图 2:对比原 FractalNet 与用 Concatenation 或 Maxout 替代了一些 fractal-joins 的 FractalNet。同样展示的还有当用平均池化替代了最大池化时的测试准确度。

  

wzatv:【j2开奖】重磅论文 | 解析深度卷积神经网络的14种设计模式(附下载)

图 3:对比原 FractalNet 与用 Concatenation 或 Maxout 替代了一些 fractal-joins 的 FractalNet。同样展示的还有当用平均池化替代了最大池化时的测试准确度。

表一和图 3 接下来对比 4.1 章节中描述的架构创新的最终测试准确率的结果。最终的结果显示要比 FractalNet 基线差一点,但从 3a 和 3b 图中可以明显看到新架构训练起来要比 FractalNet 更快。FoF 架构最终测试准确率类似于 FractalNet,但 SBN 和 TSN 架构(使用 freeze-drop-path)在学习率下降的时候准确率会落后。这在 CIFAR-100 上要比 CIFAR-10 更加明显,表明这些架构可能更适合带有大量分类的应用。但是,我们也遗留下了对更多合适应用的探索,以后再做。

5. 结论

在此论文中,我们描述了通过研究近期深度学习论文中的新架构而发现的卷积神经网络架构的设计模式。我们希望这些设计模式对希望推进前沿结果的有经验的实践者和寻求深度学习新应用的新手都有所帮助。接下来也有许多的潜在工作可以做,一些工作我们也在此论文中有所指明。我们的努力主要限定在进行分类的残差神经网络,但希望这一初步工作能启发其他人进行循环神经网络、深度强化学习架构等等其它网络的架构设计模式的研究。

©本文由机器之心编译,转载请联系本公众号获得授权

  ?------------------------------------------------

加入机器之心(全职记者/实习生):[email protected]

投稿或寻求报道:[email protected]

广告&商务合作:[email protected]

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容