码报:【j2开奖】干货 | 物体检测算法全概述：从传统检测方法到深度神经网络框架(3)_本港台直播_J2开奖直播

　　深度学习早期的物体检测，大都使用滑动窗口的方式进行窗口提取，这种方式本质是穷举法 R-CNN。后来提出Selective Search等Proposal窗口提取算法，对于给定的图像，不需要再使用一个滑动窗口进行图像扫描，而是采用某种方式“提取”出一些候选窗口，在获得对待检测目标可接受的召回率的前提下，候选窗口的数量可以控制在几千个或者几百个。

码报:【j2开奖】干货 | 物体检测算法全概述：从传统检测方法到深度神经网络框架

　　之后又出现了SPP，其主要思想是去掉了原始图像上的crop/warp等操作，换成了在卷积特征上的空间金字塔池化层。那么为什么要引入SPP层呢？其实主要原因是CNN的全连接层要求输入图片是大小一致的，而实际中的输入图片往往大小不一，如果直接缩放到同一尺寸，很可能有的物体会充满整个图片，atv，而有的物体可能只能占到图片的一角。SPP对整图提取固定维度的特征，首先把图片均分成4份，每份提取相同维度的特征，再把图片均分为16份，以此类推。可以看出，j2直播，无论图片大小如何，提取出来的维度数据都是一致的，这样就可以统一送至全连接层。

　　实际上，尽管R-CNN 和SPP在检测方面有了较大的进步，但是其带来的重复计算问题让人头疼，而 Fast R-CNN 的出现正是为了解决这些问题。 Fast R-CNN使用一个简化的SPP层 —— RoI（Region of Interesting） Pooling层，其操作与SPP类似，同时它的训练和测试是不再分多步，不再需要额外的硬盘来存储中间层的特征，梯度也能够通过RoI Pooling层直接传播。Fast R-CNN还使用SVD分解全连接层的参数矩阵，压缩为两个规模小很多的全连接层。

　　Fast R-CNN使用Selective Search来进行区域提取，速度依然不够快。Faster R-CNN则直接利用RPN（Region Proposal Networks)网络来计算候选框。RPN以一张任意大小的图片为输入，输出一批矩形区域，每个区域对应一个目标分数和位置信息。从 R-CNN 到 Faster R-CNN，这是一个化零为整的过程，其之所以能够成功，一方面得益于CNN强大的非线性建模能力，能够学习出契合各种不同子任务的特征，另一方面也是因为人们认识和思考检测问题的角度在不断发生改变，打破旧有滑动窗口的框架，将检测看成一个回归问题，不同任务之间的耦合。

　　R-CNN到Faster R-CNN都是一些通用的检测器。深度学习中还有许多特定物体检测的方法，如Cascade CNN等，随着技术的发展，深度学习的检测越来越成熟。

　　难点

　　尽管深度学习已经使得检测性能提升了一大截，但其实依旧存在许多难点。主要难点就是复杂光照情况（过暗、过曝）以及非刚性物体形变（如人体、手势的各种姿态）、低分辨率和模糊图片的检测场景。

　　众所周知，目前大多数检测算法还是静态图的检测，而海量视频数据已然出现了，未来检测数据支持的类别肯定越来越多，涵盖的面越来越广，检测技术在这方面也需要继续发展。基于视频时序连续性的物体检测和像素级的实例检测将是未来重点突破的方向。

　　本文为机器之心转载，转载请联系原公众号获得授权。

　　?------------------------------------------------

加入机器之心（全职记者/实习生）：[email protected]

投稿或寻求报道：[email protected]

广告&商务合作：[email protected]

(责任编辑：本港台直播)