参与:吴攀、武竞、李泽南、蒋思源、李亚洲 这篇论文的作者是来自美国海军研究实验室的 Leslie N. Smith 和来自美国马里兰大学的 Nicholay Topin,他们在本论文中总结了深度卷积神经网络的 14 种设计模式;其中包括:1. 架构结构遵循应用;2. 扩增路径;3. 努力实现简洁;4. 增加对称性;5. 金字塔形状;6. 用训练数据覆盖问题空间;7. 过训练;8. 增量特征构造;9. 规范层输入;10. 可用资源决定网络深度;11. 转换输入;12. 求和连接;13. 下采样过渡;14. 用于竞争的 MaxOut。该论文已被提交到了 ICLR 2017。论文原文可点击文末「阅读原文」下载。 摘要 深度学习领域近来的研究已经产出了大量的新架构。与此同时,也有越来越多的团队在将深度学习应用到新的应用和问题上。这些团队中的许多都可能是由没有经验的深度学习实践者构成的,他们可能会对让人眼花缭乱的架构选择感到困惑,因此会选择去使用一个更古老的架构,如 AlexNet。在这里,我们尝试挖掘近来深度学习研究中包含的集体知识(collective knowledge)以发现设计神经网络架构的基本原理,从而帮助弥合这一差距。此外,我们还描述了几种架构创新,其中包括 Fractal of FractalNet、Stagewise Boosting Networks 和 Taylor Series Networks(我们的 Caffe 代码和 prototxt 文件将会在被 ICLR 接受后公开)。我们希望这项初步的工作能够激励进一步的研究。 1.引言 最近,关于新型神经网络架构的文章已经出现了很多,特别是关于残差网络(Residual Network)的,比如 He et al. (2015; 2016); Larsson et al. (2016); Zhang et al. (2016); Huang et al. (2016b)。这促使我们在一个更高的层面上来看待这些架构——将这些架构看作是普遍设计原理的潜在来源。这是相当重要的,因为现在有许多没有经验的实践者在想办法将深度学习应用到不同的新应用上。缺乏指导会导致深度学习实践新手忽视最新的研究而选择 AlexNet(或一些类似的标准架构),不管其是否合适他们的应用。 这种研究的极大丰富也是一个机会:可以确认能为特定背景的应用带来好处的元素。我们提出了一些基本的问题:深度网络设计的普遍原理是否存在?这些原理可以从深度学习的集体知识(collective knowledge)中挖掘出来吗?哪些架构选择在哪些特定的背景(context)中效果最好?哪些架构或部分架构看起来很简洁优美? 设计模式(design pattern)的概念最早由 Christopher Alexander (Alexander (1979)) 引入到建筑物和城镇的结构设计上。Alexander 写道:一种永恒的架构可以一直存在,这种质量可以通过基于普遍原理进行设计而实现。这种设计模式的基础是它们能在给定的背景中解决力量的冲突,并实现类似于自然生态平衡那样的均衡。设计模式既是高度特定的(使得它们可以很清楚地遵循),也是灵活的(让它们可被适配到不同的环境和情景中)。受 Alexander 的工作的启发,「gang of four」(Gamma et al. (1995))将设计模式的概念应用到了面向对象的软件的架构设计上。这本经典的计算机科学书籍描述了 23 种可以用来解决软件设计中普遍存在的问题的模式,例如「需求总是在改变」。我们受到了之前这些在架构上的工作的启发,决定阐释神经网络架构的可能设计模式。 设计模式可以提供普遍性的指导原则,在这里我们首先要定义用于神经网络架构的设计模式。整体而言,要为所有的神经网络和所有的应用定义设计原理是一项巨大的任务,所以我们将这篇论文的范围限制在了卷积神经网络(CNN)及其基本的图像分类应用上。但是,我们认识到架构必须依赖于具备我们的第一设计模式的应用——设计模式 1:架构结构遵循应用;但相关的细节留待未来解决。此外,这些原理让我们可以发现已有研究中的一些缺陷和阐释全新的架构特征,比如 freeze-drop-path(参见 4.1 节)。这里阐述的经验法则可能对有经验的和新手的实践者都有价值。另外,我们真心希望这项初步的研究能够成为其它研究的垫脚石,能帮助其他人发现和分享其它深度学习设计模式。 2.相关工作 本节介绍和总结了其它一些神经网络架构上的相关研究工作,但由于篇幅限制,机器之心未对此节进行编译,详情请查看原论文。 3.设计模式 就我们所知,提供合适架构选择的指导与理解的文献资料很少。《Neural Networks: Tricks of the Trade》(Orr & Muller, ¨ 2003) 这本书包含了网络模型推荐,但没有参考过去几年的大量研究。与这项工作最接近的可能是 Szegedy et al. (2015b),作者在其中描述了几种基于他们自己的经验的设计原理。 (责任编辑:本港台直播) |