本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

复旦、清华和英特尔中国研究院ICCV新作:完全脱

时间:2017-08-20 03:18来源:天下彩论坛 作者:本港台直播 点击:
复旦、清华和英特尔中国研究院ICCV新作:完全脱离预训练模型的目标检测方法 2017-08-19 14:05 来源:新智元 英特尔/设计 原标题:复旦、清华和英特尔中国研究院ICCV新作:完全脱离预训

复旦清华英特尔中国研究院ICCV新作完全脱离预训练模型的目标检测方法

2017-08-19 14:05 来源:新智元 英特尔 /设计

原标题:复旦清华和英特尔中国研究院ICCV新作完全脱离预训练模型的目标检测方法

1新智元报道

编辑:弗格森

【新智元导读】复旦大学、清华大学和英特尔中国研究院合作提出的一种新型的目标检测方法 (DSOD)能够在完全脱离预训练模型的情况下,使用有限训练数据,达到state-of-the-art的性能。

最近,由复旦大学、清华大学和英特尔中国研究院合作提出的一种新型的目标检测方法 (DSOD) 被国际计算机视觉顶级会议ICCV 2017接收。论文标题为:DSOD: Learning Deeply Supervised Object Detectors from Scratch。

复旦、清华和英特尔中国研究院ICCV新作:完全脱

论文地址:https://arxiv.org/abs/1708.01241。论文代https://github.com/szq0214/DSOD

论文在Arxiv放出之后,在社交网络上引起广泛关注。本文对这个工作做一个详细的解读。

目标检测存在的几个痛点

目标检测 (Object Detection) 作为一项重要的视觉任务广泛应用于自动驾驶、监控、医学图像检测等领域。众所周知,目前所有基于深度学习的目标检测方法都严重依赖于在ImageNet分类任务上预训练(pre-train)的模型作为初始权重。根据论文中的观点,这种预训练+微调(pre-train + fine-tune)的方式主要存在以下几个问题:

1、缺乏灵活性。在ImageNet上训练模型代价非常高昂,如果只使用公开的预训练的模型,将很难根据需要去灵活地调整模型结构。

2、Loss差异问题。由于ImageNet模型的类别和目标检测问题的类别分布差别较大,atv,分类的目标函数和检测的目标函数也不一致,作者认为从预训练模型上微调(fine-tune)可能和检测问题的有一定的优化学习偏差. 这个偏差对于有限训练样本可能更突出。

3、问题域(domain)的不匹配。并不是所有检测任务都是在自然RGB图像上进行的,如医学图像、多谱图像的检测。目前能够作为预训练的大规模数据集几乎只有ImageNet,而在自然图片上预训练,由于domain的巨大差异,很难在医学图像等domain上有效地微调(fine-tune)。

那么有没有一种方法能够在完全脱离预训练模型的情况下达到state-of-the-art的性能呢?

借助CVPR2017最佳论文DenseNet特性

DSOD目的是为了解决这些痛点,该方法借助于DenseNet (CVPR2017 best paper) 隐式的deeply supervised的特性,结合其他一些设计原则,成功地实现了目标检测模型的从零开始训练(training from scratch)。这是目前已知的第一篇在完全脱离ImageNet 预训练模型的情况下使用深度模型l, 在有限的训练数据前提下能做到state-of-the-art效果的工作,同时模型参数相比其他方法也要小很多。

DSOD的完整结构图如下表1 :

复旦、清华和英特尔中国研究院ICCV新作:完全脱

表1. DSOD网络结构图

为了训练出性能更好的检测器,文章提出了如下几个网络设计原则:

原则一:无障碍的梯度回传

并不是所有框架都适合用来从头开始训检测器。作者发现像Faster-RCNN、R-FCN这类基于region-proposal的框架,由于存在ROI pooling layer, 该层类似于一个mask,使得梯度没法平滑的回传到前面层,因此从零开始训练的整个模型没法收敛(或者收敛较差)。而YOLO、SSD这类框架由于是proposal-free的结构,模型可以收敛,但是结果和预训练模型上微调有较大差距。

原则二:更深的监督信息

训练深度模型一个很常见的问题就是梯度消失。一个比较常用的减缓梯度消失问题的方法是在网络中间层插入side-output loss项,让网络靠近输入层的神经元也能接收到比较强的梯度信号。但是DSOD抛弃了这种显式的deep supervision结构,原因在于目前detection框架的loss项本身比较复杂,而且会使用多层feature来做检测,所以不太适合插入多个这样的loss项。DSOD采用了一种更加优雅的解决方案,通过借助dense block中每一层都会连接到后面层上去的特点,避免了training from scratch过程中梯度消失的问题。在DSOD中,atv,除了主干网,预测层的结构也改变成dense的连接方式(见图1),该结构不仅能大量减少需要学习的模型参数,同时能进一步提升模型性能。

复旦、清华和英特尔中国研究院ICCV新作:完全脱

图1. DSOD预测层结构示意图

原则三:根(Stem)结构

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容