wzatv:【干货】18个技巧实战深度学习，资深研究员的血泪教训_本港台直播_J2开奖直播

　　新智元启动新一轮大招聘：COO、执行总编、主编、高级编译、主笔、运营总监、客户经理、咨询总监、行政助理等 9 大岗位全面开放。

　　简历投递：j[email protected]

　　HR 微信：13552313024

　　新智元为COO和执行总编提供最高超百万的年薪激励；为骨干员工提供最完整的培训体系、高于业界平均水平的工资和奖金。

　　加盟新智元，与人工智能业界领袖携手改变世界。

　　【新智元导读】资深工程师 Nikolas Markou 回顾他多年来在一线使用深度学习的经验，总结出 18 个能让你充分发挥深度神经网络潜力的诀窍，简洁明了，直击核心。新智元在取得 Nikolas 授权后，将文章翻译如下，相信此文能让你在实践中少走弯路。

　　（文／Nikolas Markou）我自 2013 年以来就一直在使用深度学习和深度置信网络。

　　我加入了一个绿地项目，负责选择在计算机视觉平台上使用的核心机器学习算法。

　　这些算法要么是不能很好地工作，要么能够很好地工作但不能泛化，需要很多时间或在遇到类似的数据集时，它无法收敛。我迷失了。然后，我从学术界抓住了希望，学术界掀起了深度学习的热风，宣称它能解决所有问题。

　　对于深度学习，我是持怀疑态度的，所以我阅读了很多相关的论文、书籍、笔记等。令我惊讶的是，这不是炒作，深度学习能工作，而且工作得很好。但是，它毕竟是一个新的概念（虽然它的基础在70年代就已筑起了），出现了很多有关如何充分利用深度学习的技巧和 tips（例如 Alex Krizhevsky 就几乎概况了大部分的 tips，而且可以说是他预先发现了批标准化）。

　　下面是我发现的一些有助于充分利用 DNN 的小技巧：

记得要 shuffle。不要让你的网络通过完全相同的 minibatch，如果框架允许，在每个 epoch 都 shuffle 一次。

扩展数据集。DNN 需要大量的数据，而且模型在小的数据集上很容易过拟合。我强烈建议你要扩展原始的数据集。如果你的是一个视觉任务，可以增加噪点、增白，减少像素，旋转或色移，模糊，等等可以扩展的一切。有一点不好的是，假如你扩展得太大，可能训练的数据大多数是相同的。我创建了一个应用随机变换的层来解决这个问题，j2直播，这样就不会有相同的样本。若果你用的是语音数据，j2直播，可以进行移位和失真处理。

在整个数据集上训练之前，先在非常小的子数据集上训练进行过拟合，这样你会知道你的网络可以收敛。这个 tip 来自 Karpathy。

始终使用 dropout 将过拟合的几率最小化。在大小 > 256 （完全连接层或卷积层）之后就应该使用 dropout。关于这一点有一篇很好的论文：Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning [Gal Yarin & Zoubin Ghahramani，2015].

避免 LRN 池化，MAX 池化会更快。

避免 Sigmoid/TanH 的门，它们代价昂贵，容易饱和，而且可能会停止反向传播。实际上，你的网络越深，就越应该避免使用 Sigmoid 和 TanH。可以使用更便宜而且更有效的 ReLU 和 PreLU 的门，正如在 Yoshua Bengio 等人的论文 Deep Sparse Rectifier Neural Networks 中所提到的，这两者能够促进稀疏性，而且它们的反向传播更加鲁棒。

在最大池化之前不要使用 ReLU 或 PreLU ，而是在保存计算之后使用它。

不要使用 ReLU ，它们太旧了。虽然他们是非常有用的非线性函数，可以解决很多问题。但是，你可以试试用它微调一个新模型，由于 ReLU 阻碍反向传播，初始化不好，你没法得到任何微调效果。但是你应该用 PreLU 以及一个非常小的乘数，通常是0.1。使用 PreLU 的话收敛更快，而且不会像 ReLU 那样在初始阶段被卡住。ELU 也很好，但成本高。

经常使用批标准化。参考论文：Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[Sergey Ioffe & Christian Szegedy,2015]。这会很有效。批标准化允许更快的收敛（非常快）以及更小的数据集。这样你能够节省时间和资源。

(责任编辑：本港台直播)