wzatv:小心训练模型，数据少也可以玩转深度学习(2)_本港台直播_J2开奖直播

经常检查超参数的默认值。Keras 之所以这么优秀，是因为其默认参数值通常反映了当前的最佳训练，但同时我们也需要确保选择的参数符合我们的问题。

不同的框架可能得出很不一样的结果。我尝试使用原 R 代码去观察能不能得到相似的结果。然而，我并不能使用 h2o.deeplearning() 函数得出一个优异的结果。我猜测可能是和其使用的优化过程有关，atv，其好像使用的是弹性均值 SGD 以计算多个结点而加速训练。我不知道当你仅有少量样本数据时会不会出现故障，但我认为可能性是很大的。

幸好，RStudio 那些人太好了，他们刚刚发布了 Keras 的 R 接口：https://rstudio.github.io/keras/，这样我就可以完全用 R 语言重建我的 Python 代码了。我们之前使用 MLP 用 R 实现了就是这样：

wzatv:小心训练模型，数据少也可以玩转深度学习

我将这个放进了 Jeff 的 R 代码中，并重新生成了原来的图表。我对 Leekasso 进行了一点修改。原来的代码使用了 lm()（即线性回归），我觉得很奇怪，所以我切换成了 glm()（即 logistic 回归）。新的图表如下所示：

wzatv:小心训练模型，数据少也可以玩转深度学习

深度学习真是厉害了！一个类似的现象可能能够解释 Leekasso 的 Python 和 R 版本之间的不同。Python 版本的 logistic 回归使用了 liblinear 作为其解算器，我认为这比 R 默认的解算器更加可靠一点。这可能会有影响，因为 Leekasso 选择的变量是高度共线性的（collinear）。

这个问题太简单了，以致于不能说明什么有意义的东西。我重新运行了 Leekasso，但仅使用了最好的预测器，其结果几乎完全等同于全 Leekasso。实际上，我确定我可以做出一个不使用数据的且具有高准确度的分类器。只需要取其中心像素，如果是黑色，则预测 1，否则就预测 0，正如 David Robinson 指出的那样：

wzatv:小心训练模型，数据少也可以玩转深度学习

David 还指出，开奖，大多数数字对（pairs of numbers）都可以由单个像素进行分类。所以，这个问题很可能不能给我们带来任何关于「真实」小数据场景的见解，我们应当对其结论保持适当的怀疑。

关于深度学习为什么有效的误解

最终，我想要重新回到 Jeff 在文中所提出的观点，尤其是这个声明：

问题在于：实际上仅有少数几个企业有足够数据去做深度学习，[…] 但是我经常思考的是，在更简单的模型上使用深度学习的主要优势是如果你有大量数据就可以拟合大量的参数。

这篇文章，尤其是最后一部分，在我看来并不完整。很多人似乎把深度学习看成一个巨大的黑箱，有大量可以学习任何函数的参数，只要你有足够的数据。神经网络当然是极其灵活的，这种灵活性正是其成功原因的一部分，但不是全部，不是吗？

毕竟，这种超级灵活的模型在机器学习和统计学中有着 70 多年的发展历史。我并不认为神经网络是先验（priori）的，我也不认为比同等复杂度的其他算法更灵活。

下面是我对其成功所作的原因总结：

在偏差/方差折衷中一切都是一个练习。更明白地讲，我认为 Jeff 真正在做的辩驳是关于模型复杂度和偏差/方差折衷。如果你没有很多数据，很可能训练一个简单模型（高偏差/低方差）要比复杂模型（低偏差/高方差）效果更好。客观来讲，在大多数情况下这是一个好建议，然而...

神经网络有很多技术来防范过拟合。神经网络有很多参数，按照 Jeff 的观点如果我们没有足够的数据去可靠地评估这些参数值，将会导致高方差。我们清楚地意识到了这个问题，并且开发了很多降低方差的技术。比如 dropout 结合随机梯度下降导致了一个像 bagging 一样糟糕的处理，但是这是发生在网络参数上，而不是输入变量。方差降低技术（比如 dropout）以其他模型难以复制的方式被加进了训练程序。这使得你可以真正训练大模型，即使没有太多数据。

深度学习允许你轻易地把问题的具体约束直接整合进模型以降低方差。这是我想说明的最重要的一点，也是我们以前经常忽视的一点。由于其模块化，神经网络使你可以真正整合，极大降低模型方差的强约束（先验）。最好的一个实例是卷积神经网络。在 CNN 中，我们实际上把图像的属性编码进模型本身。例如，当我们指定一个大小为 3x3 的过滤器时，实际上是在直接告诉网络本地连接的像素的小集群将包含有用的信息。此外，我们还可以把图像的平移和旋转不变性直接编码进模型。所有这些都将模型偏差至图像属性，以极大地降低方差，提升预测性能。

(责任编辑：本港台直播)