wzatv:【j2开奖】见微知著：细粒度图像分析进展(2)_本港台直播_J2开奖直播

　　有感于Part-based R-CNN，S. Branson等人提出在用DPM算法得到Part Annotation的预测点后同样可以获得物体级别和部位级别的检测框，如图4所示。与之前工作不同的是，Pose Normalized CNN对部位级别图像块做了姿态对齐操作。此外，由于CNN不同层的特征具有不同的表示特性（如浅层特征表示边缘等信息，深层特征更具高层语义），该工作还提出应针对细粒度图像不同级别的图像块，提取不同层的卷积特征。在图4中，我们针对全局信息，提取FC8特征；基于头部信息则提取最后一层卷积层特征作为特征表示。最终，还是将不同级别特征级联作为整张图像的表示。如此的姿态对齐操作和不同层特征融合方式，使得Pose Normalized CNN在使用同样多标记信息时取得了相比Part-based R-CNN高2%的分类精度。

wzatv:【j2开奖】见微知著：细粒度图像分析进展

　　图4 用DPM算法得到Part Annotation的预测点后获得物体级别和部位级别的检测框

　　Mask-CNN

　　最近，我们也针对细粒度图像分类问题提出了名为Mask-CNN的模型。同上，该模型亦分为两个模块，第一是Part Localization；第二是全局和局部图像块的特征学习。需要指出的是，与前两个工作的不同在于，在Mask-CNN中，我们提出借助FCN学习一个部位分割模型（Part-Based Segmentation Model）。其真实标记是通过Part Annotation得到的头部和躯干部位的最小外接矩形，如图5(c)所示。在FCN中，Part Localization这一问题就转化为一个三分类分割问题，其中，一类为头部、一类为躯干、最后一类则是背景。

wzatv:【j2开奖】见微知著：细粒度图像分析进展

　　图5 借助FCN学习的部位分割模型

　　FCN训练完毕后，可以对测试集中的细粒度图像进行较精确地part定位，图6展示了一些定位效果图。可以发现，基于FCN的part定位方式可以对大多数细粒度图像进行较好的头部和躯干定位。同时，还能注意到，即使FCN的真实标记是粗糙的矩形框，但其预测结果中针对part稍精细些的轮廓也能较好地得到。在此，我们称预测得到的part分割结果为Part Mask。不过，对于一些复杂背景图像（如图6右下）part定位结果还有待提高。

wzatv:【j2开奖】见微知著：细粒度图像分析进展

　　图6 经过FCN训练后对细粒度图像进行定位

　　在得到Part Mask后，可以通过Crop获得对应的图像块。同时，两个Part Mask组合起来刚好可组成一个较完整的Object Mask。同样，基于物体／部位图像块，Mask-CNN训练了三个子网络。

　　在此需要特别指出的是，在每个子网络中，上一步骤中学到的Part/Object Mask还起到了一个关键作用，即“筛选关键卷积特征描述子”（Selecting Useful Convolutional Deor），如图7(c)-(d)。这个模块也是我们首次在细粒度图像分类中提出的。筛选特征描述子的好处在于，可以保留表示前景的描述子，而去除表示背景的卷积描述子的干扰。筛选后，对保留下来的特征描述子进行全局平均和最大池化（Global Average/Max Pooling）操作，后将二者池化后的特征级联作为子网络的特征表示，最后将三个子网特征再次级联作为整张图像的特征表示。

wzatv:【j2开奖】见微知著：细粒度图像分析进展

　　图7 筛选关键卷积特征描述子

　　实验表明，基于筛选的Mask-CNN在仅依靠训练时提供的Part Annotation（不需要Bounding Box，同时测试时不需额外监督信息）取得了目前细粒度图像分类最高的分类精度（在经典CUB数据上，基于ResNet的模型对200类不同鸟类分类精度可达87.3%）。此外，借助FCN学习Part Mask来进行Part定位的做法也取得了Part定位的最好结果。

　　基于弱监督信息的细粒度图像分类模型

(责任编辑：本港台直播)