论文摘要中说:“本文的目标是用于指导选择一个物体检测架构,为给定的应用程序和平台实现取得的速度/内存/精度一个恰当的平衡。为此,我们研究了在现代卷积物体检测系统中,用速度和内存换取精确度的各种方法。近年来有许多成功的系统,但是由于不同的基本特征提取器(例如,VGG,残差网络),不同的默认图像分辨率以及不同的硬件和软件平台,逐一对比这些系统将非常困难。我们提出了一种Faster R-CNN,R-FCN和SSD 的结合实现,我们将其视为“元架构”,然后通过使用各种特征提取器,在每个“元架构”改变其它的关键参数,例如图像大小,从而描绘了速度/精确度的权衡曲线。当速度和内存要求特别高的情况下,我们提供了一个检测器可达到实时速度并且可以部署到移动设备上。在准确性特别重要的情况下,我们提供了一种在COCO物体检测中达到超高水平的检测器。” 值得注意的是,目前排在第二名的微软亚洲研究院用的并不是目前COCO上主流的R-CNN系模型,而是R-FCN,这两种模型在COCO和PASCAL VOC上的表现都不错。榜上25个团队有11个用Faster RCNN,3个团队用到R-FCN,同时我们从最前面的速度/时间散点图看到,总的来说Faster RCNN比R-FCN的准确度似乎更高一筹。 朱梦龙他们在论文写道:对于Faster R-CNN,较少使用建议(proposals)可以显著加快速度,而不会造成严重的准确性损失,从而使其比SSD和RFCN具有竞争力。SSD的性能对于特征提取器的质量不如FasterR-CNN和R-FCN那么敏感。我们在这一精确度/速度平衡曲线上标记了不错的点,这些点只能通过牺牲速度才能提高其精确度。 从数字上来看,机器检测物体离人类水平还是有些差距,朱梦龙表示:“COCO有很多特别小的物体,所以还是很有挑战,但是在PASCAL VOC最好的上准确率已经超过80%,已经非常好。” MobileNet最新解读:分解降维卷积层,模型计算量可压缩至1/30 正如上面的论文摘要中提到的:“当速度和内存要求特别高的情况下,我们提供了一个检测器可达到实时速度并且可以部署到移动设备上。”这个检测器其实就是MobileNet,atv,新智元也曾经报道过这一论文,这是谷歌团队提出的一种高效模型,用于移动和嵌入式设备的视觉应用,使得在同样的效果下,计算量可以压缩至1/30。
提到在移动端做视觉模型的挑战,朱梦龙说: “移动端除了手机也包括各种智能化的设备。在这些设备上的主要挑战,除了直接能想到的存储空间和硬件本身计算速度限制之外,还要考虑到计算能耗以及散热的限制。为了保证设备不过热很多移动端芯片的CPU会设有throttle保护(节能保护),在进行大量密集计算之后如果芯片温度升高到一定程度,就会限制计算的频率,防止设备过热。同时在应用层面也要考虑到其他共存的计算任务,比如说在做图像识别任务的过程中,除了识别算法本身,手机拍照成像也需要占用一部分的计算资源。总的来说最主要的技术挑战在于如何在这些限制之下,以最少的模型参数和计算量,保持较高的准确性。” MobileNet基于一个流线型的架构,该架构使用depthwise separable convolution 来构建轻量级的深度神经网络。他们引入了两个简单的全局超参数,有效权衡延迟和准确度。这些超参数能让模型搭建者根据问题的限制为其应用选择适当规模的模型。 朱梦龙介绍:“MobileNet一个很大的亮点是对depthwise卷积的大规模使用。将一个二维的depthwise卷积和1x1的映射卷积组合起来可以很好的逼近普通的三维卷积。对于常用的3x3三维卷积来说,利用depthwise和1x1映射来取代可以将计算量压缩8-9倍,所用到的参数量也大大减少,但仍然保持相类似的精确度。这样的想法来自于矩阵分解,一般如果一个矩阵是low rank(低秩)的话,可以有很多办法将其分解成为两个或者多个矩阵。另外一个启发是大部分的计算会产生于早期的卷积层,所以MobileNet较早的采用stride2而大大减少了计算量。MobileNet在ImageNet分类的任务上能达到类似VGG的效果,但是参数和计算量都少了都超过一个数量级(约1/30)。” (责任编辑:本港台直播) |