很明显,在SCDA中,最重要的就是如何在无监督条件下对物体进行定位。通过观察得到的卷积层特征(如图16所示),可以发现明显的“分布式表示”特性。对两种不同鸟类/狗,同一层卷积层的最强响应也差异很大。如此一来,单独选择一层卷积层特征来指导无监督物体定位并不现实,同时全部卷积层特征都拿来帮助定位也不合理。例如,对于第二张鸟的图像来说,第108层卷积层较强响应竟然是一些背景的噪声。 图16 在SCDA中,通过观察得到的卷积层特征发现“分布式表示”特性 基于这样的观察,我们提出将卷积特征(HxWxD)在深度方向做加和,之后可以获得Aggregation Map(HxWx1)。在这张二维图中,可以计算出所有HxW个元素的均值,而此均值m便是该图物体定位的关键:Aggregation Map中大于m的元素位置的卷积特征需保留;小于的则丢弃。这一做法的一个直观解释是,细粒度物体出现的位置在卷积特征张量的多数通道都有响应,而将卷积特征在深度方向加和后,可以将这些物体位置的响应累积——有点“众人拾柴火焰高”的意味。而均值则作为一把“尺子”,将“不达标”的响应处标记为噪声,将“达标”的位置标为物体所在。而这些被保留下来的位置,也就对应了应保留卷积特征描述子的位置。后续做法类似Mask-CNN。实验中,在细粒度图像检索中,SCDA同样获得了最好结果;同时SCDA在传统图像检索任务中,也可取得同目前传统图像检索任务最好方法相差无几(甚至优于)的结果(如图17所示)。 图17 基于深度学习的细粒度图像检索流程图 展望 细粒度图像分析任务在过去的十年里一直是计算机视觉中的热门研究领域,尤其在深度学习繁荣的近几年,方法和问题可谓“常做常新”。不过随着深度学习方法研究的深入,在传统细粒度图像分析问题上,如鸟类、狗、车等子类分类和检索,尤其分类问题的准确率,可以说是到了瓶颈期。虽然时常会有不少细粒度图像分类工作问世,但每年也大概只能将分类准确率提升1个百分点左右(在经典的鸟类分类上,目前强监督分类模型为87.3%左右,弱监督模型为84.1%左右)。这便催生了细粒度图像分析任务的不同设定,如基于网络数据的细粒度图像分类、基于wiki知识获取的细粒度图像分类等。 同时,更加广义的“细粒度图像分析”研究也越来越多。常见的行人重检测(Person Re-ID)、人脸判别(Face Verification)、示例级别检索(Instance Retrieval)等问题都可以用传统细粒度图像分析的思路去解决,也期待更加优秀的相关研究出现。 参考文献 [1] N. Zhang, J. Donahue, R. Girshick, and T. Darrell. Part-based R-CNNs for fine-grained category detection. In European Conference on Computer Vision, Part I, LNCS 8689, pages 834–849, Zurich, Switzerland, Sept. 2014. Springer, Switzerland. [2] S. Branson, G. V. Horn, S. Belongie, and P. Perona. Bird species categorization using pose normalized deep convolutional nets. In British Machine Vision Conference, pages 1–14, Nottingham, England, Sept. 2014. [3] S. Branson, O. Beijbom, and S. Belongie. Efficient large-scale structured learning. In IEEE Conference on Computer Vision and Pattern Recognition, In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pages 1806–1813, Portland, Oregon, Jun. 2013. [4] X.-S. Wei, C.-W. Xie and J. Wu. Mask-CNN: Localizing Parts and Selecting Deors for Fine-Grained Image Recognition. arXiv:1605.06878, 2016. [5] T. Xiao, Y. Xu, K. Yang, J. Zhang, Y. Peng, and Z. Zhang. The application of two-level attention models in deep convolutional neural network for fine-grained image classification. In Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, pages 842–850, Boston, MA, Jun. 2015. (责任编辑:本港台直播) |