本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

wzatv:实时深度学习的推理加速和连续学习(2)

时间:2017-08-11 20:20来源:118论坛 作者:本港台直播 点击:
在数据集扩展时会平滑地改变——因此我们要假设更新步骤小且输入域恒定。在实际情况中,就算这些假设(部分地)属实,我们仍还依赖于一个预期:通

在数据集扩展时会平滑地改变——因此我们要假设更新步骤小且输入域恒定。在实际情况中,就算这些假设(部分地)属实,我们仍还依赖于一个预期:通过在之前一个局部最优点的初始化,带有不同参数空间情况的新优化问题可以快速且稳定地收敛到一个新的局部最优点。但是,大多数现代 DNN 都太复杂了,所以难以保证这一点——它们的目标函数是高度非线性和非凸的,有时候参数空间中还都是些糟糕的局部条件数(local condition numbers)。即便如此,热启动仍然是目前最好的方法之一,肯定比从头开始更好,而且在实验上也表现出了最好的潜力。对于场景 2,在每个时间步骤,我们都可能需要为最后的输入层添加额外的神经元以及与前一层的连接权重。

但还存在三个问题。一,每个更新步骤需要多少个 SGD 步骤?二,在每个更新过程中,我们使用多少前一步骤的数据,又使用多少当前步骤的数据?三,这个更新流程是否稳健,能应对标注噪声吗?对于生产系统来说,这些问题都很重要,因为正如我们前面谈到的,稳健性和效率是很重要的。

实证研究

在实验中,我们使用了在 ImageNet ILSVRC-2010 上预训练的 BVLC AlexNet 作为示例网络。我们将学习率固定为 0.001,L2 权重衰减固定为 0.0005,动量固定为 0.9;并且更新集的大小也固定为

其中的样本来自同一类别。对于评估,我们使用了 MS-COCO-full-v0.9 和 Stanford40Actions。相比 ImageNet,这两个数据集都很小,因为我们想使用比初始预训练小的更新来评估连续学习的表现。对于 MS-COCO,我们使用了 15 个类别,其中每个包含 500 到 1000 个样本;每个样本都仅保留 ground truth 边界框,且宽和高都至少是 256 像素。为了进行评估,我们随机选择了 10 个类来对 CNN 进行初始化微调。从剩余的数据中,我们再随机选择 5 个类别用作全新数据(在每个更新步骤输入的新数据),并且从每个类别随机选择了 100 个样本。每个更新步骤使用的度量都是分类准确度。为了得到无偏差的比较,我们进行了该实验 9 次。

1.每个更新步骤的 SGD 迭代次数

SGDminibatch 的大小固定为 64,但我们改变了每个更新步骤中 SGD 迭代执行的次数。我们将 SGD 迭代次数表示成了一个相对于总训练数据大小(即 epoch 数)的比例,以补偿不断增长的训练数据大小。

wzatv:实时深度学习的推理加速和连续学习

让人惊讶的是,即使每次更新的 SGD 迭代少了很多,分类准确度依然稳健,除了那些仅使用了十分之一数据的案例,很可能是因为在这样小的 epoch 中一些类别代表不足。事实上,我们可以直接将 SGD 迭代的次数固定为一个小常量(比如更新集大小

,表现也不会显著下降。

wzatv:实时深度学习的推理加速和连续学习

2.每个更新步骤中旧数据与新数据的比例

对于增量式的学习算法,旧数据与新数据的影响的比例是最重要的超参数之一。在 SGD 迭代中,我们根据概率

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容