Dropout可以认为是一种极端的Bagging,每一个模型都在单独的数据上训练,通过和其他模型对应参数的共享,模型的参数都进行了很强的正则化。参见这里。 12 下列哪哪一项在神经网络中引入了非线性? 随机梯度下降 修正线性单元(ReLU) 卷积函数 以上都不正确 答案:(B) 修正线性单元是非线性的激活函数。 13 训练神经网络过程中,损失函数在一些时期(Epoch)不再减小 原因可能是: 学习率(Learning rate)太低 正则参数太大 卡在了局部最小值 在你看来哪些是可能的原因? A. 1 and 2 B. 2 and 3 C. 1 and 3 D. 都不是 答案:(D) 以上原因都可能造成这个结果。 14 下列哪项关于模型能力(model capacity)的描述是正确的?(指模型能近似复杂函数的能力) 隐层层数增加,模型能力增加 Dropout的比例增加,模型能力增加 学习率增加,模型能力增加 都不正确 答案:(A) 只有选项A正确。 15 如果增加多层感知机(Multilayer Perceptron)的隐层层数,测试集的分类错误会减小。这种陈述正确还是错误? 正确 错误 答案:(B) 并不总是正确。过拟合可能会导致错误增加。 16 构建一个神经网络,将前一层的输出和它自身作为输入。 下列哪一种架构有反馈连接? 循环神经网络 卷积神经网络 限制玻尔兹曼机 都不是 答案:(A) 选项A正确。 17 在感知机中(Perceptron)的任务顺序是什么? 初始化随机权重 去到数据集的下一批(batch) 如果预测值和输出不一致,改变权重 对一个输入样本,计算输出值 A. 1, 2, 3, 4 B. 4, 3, 2, 1 C. 3, 1, 2, 4 D. 1, 4, 3, 2 答案:(D) 顺序D是正确的。 18 假设你需要改变参数来最小化代价函数(cost function),可以使用下列哪项技术? A. 穷举搜索 B. 随机搜索 C. Bayesian优化 D. 以上任意一种 答案:(D) 以上任意种技术都可以用来更新参数。 19 在哪种情况下,一阶梯度下降不一定正确工作(可能会卡住)? A. B. C. D. 以上都不正确 答案:(B) 这是鞍点(Saddle Point)的梯度下降的经典例子。 20 训练好的三层卷积神经网络的精确度(Accuracy)vs 参数数量(比如特征核的数量)的图示如下。 从图中趋势可见,如果增加神经网络的宽度,精确度会增加到一个阈值,然后开始降低。这一现象的可能是什么原因是造成的? 即便核数量(number of kernels)增加,只有一部分核被用于预测 当核数量增加,神经网络的预测功效(Power)降低 当核数量增加,其相关性增加,导致过拟合 以上都不正确 答案:(C) 如C选项指出的那样,可能的原因是核之间的相关性。 21 (责任编辑:本港台直播) |