图像语义分割是图像理解的基石性技术在自动驾驶系统等牵涉街景或场景识别应用中扮演举足轻重的角色。基于深度学习的语义分割技术虽然可以取得远超传统方法的性能但是往往依赖于极深的网络或者复杂的后处理技术提高模型的预测精度。因而处理过程通常需要耗费大量的计算资源而且速度不高。 此论文[20]提出了一个很具启发性的创新点对难度不同的区域区别对待 — 让简单的归于简单把宝贵的计算资源投放在困难的部分。具体而言大块平滑的区域分割是较为容易的而物体边界或者有复杂纹理的区域的分割则较为困难。基于这一观察此文提出了一个新型的语义分割模型Deep LayerCascade (LC)。它将图像中的像素分为简单、中等、困难三个部分分别由网络中的浅层、中层、高层来针对性完成分割。此文还提出了RegionConvolution来只处理每个阶段感兴趣的区域而忽视其他区域。对于简单区域的低层处理结果通过skip connection直接传送到输出端并与复杂区域处理的结果相融合因此三个层次的处理无缝衔接构成了一个可以端对端训练的统一网络。 Deep Layer Cascade不仅提高计算速度而且因为每个阶段只专注处理某类难度的像素精度也会相对地提高。LC可以灵活地与不同的深度网络架构结合运用。Inception-ResNet-v2应用LC后速度提高了42.8% 精度提高了1.7%。经测试LC在多个测试集上大幅度提高速度并达到甚至超越state-of-the-art的精度水平LC在VOC12测试集上mIoU可达到80.3在COCO上预训练可达到82.7在Cityscapes测试集上可达到71.1。除了上述论文值得一提的是商汤科技与香港中大-商汤科技联合实验室在这次的CVPR斩获了由VideoNet 主办的第一届DAVISChallenge 视频语义分割比赛冠军。参赛者需要提出算法准确地把视频里指定的物体进行语义实例分割。因为物体快速移动造成的模糊状态和多物体之间的遮挡问题比赛的挑战难度特别高。商汤科技与香港中大-商汤科技联合实验室合作提出的VideoObject Segmentation with Re-identificationVS-ReID算法让他们在全球共 22支队伍里脱颖而出获得冠军。 论文标题:Not All Pixels Are Equal:Difficulty-Aware Semantic Segmentation via Deep Layer Cascade. 论文作者:Xiaoxiao Li, Ziwei Liu, Ping Luo, ChenChange Loy, Xiaoou Tang 此外,商汤科技与香港中大-商汤联合实验室参加DAVIS Challenge比赛的技术方案也在DAVIS Challengeworkshop整理发表: 论文标题:VideoObject Segmentation with Re-identification. 论文作者:XiaoxiaoLi, Yuankai Qi, Zhe Wang, Kai Chen, Ziwei Liu, Jianping Shi, Ping Luo, ChenChange Loy, Xiaoou Tang Tubelet Proposal Network: ImageNet冠军检测技术到视频的跃迁 (责任编辑:本港台直播) |