和上文提到的空洞卷积论文一样,PSPNet也用空洞卷积来改善Resnet结构,并添加了一个金字塔池化模块。该模块将ResNet的特征图谱连接到并行池化层的上采样输出,其中内核分别覆盖了图像的整个区域、半各区域和小块区域。 在ResNet网络的第四阶段(即输入到金字塔池化模块后),除了主分支的损失之外又新增了附加损失,这种思想在其他研究中也被称为中级监督(intermediate supervision)。 △PSPNet网络结构 分值 评论 来源85.4 COCO预训练,多维度输入,无CRF方法 排行榜 82.6 无COCO预训练方法,多维度输入,无CRF方法 PSPNet论文 △PSPNet网络在VOC2012上测试的基准分值 大内核 论文: Large Kernel Matters — Improve Semantic Segmentation by Global Convolutional Network 于2017年3月8日提交到Arxiv https://arxiv.org/abs/1703.02719 主要贡献: 提出了一种带有大维度卷积核的编码器-解码器结构。 具体解释: 这项研究通过全局卷积网络来提高语义分割的效果。 语义分割不仅需要图像分割,而且需要对分割目标进行分类。在分割结构中不能使用全连接层,这项研究发现可以使用大维度内核来替代。 采用大内核结构的另一个原因是,尽管ResNet等多种深层网络具有很大的感受野,有相关研究发现网络倾向于在一个小得多的区域来获取信息,并提出了有效感受野的概念。 大内核结构计算成本高,且具有很多结构参数。因此,k×k卷积可近似成1×k+k×1和k×1+1×k的两种分布组合。这个模块称为全局卷积网络(Global Convolutional Network, GCN)。 接下来谈结构,ResNet(不带空洞卷积)组成了整个结构的编码器部分,同时GCN网络和反卷积层组成了解码器部分。该结构还使用了一种称作边界细化(Boundary Refinement,BR)的简单残差模块。 △GCN网络结构 分值 评论 来源82.2 - 详情见本论文 83.6 改进训练过程,未在本文中详细描述 排行榜 △GCN网络在VOC2012上测试的基准分值 DeepLab v3 论文: Rethinking Atrous Convolution for Semantic Image Segmentation 于2017年6月17日提交到Arxiv https://arxiv.org/abs/1706.05587 主要贡献: 改进了空间维度上的金字塔空洞池化方法(ASPP); 该模块级联了多个空洞卷积结构。 具体解释: 与在DeepLab v2网络、空洞卷积中一样,这项研究也用空洞卷积/多空卷积来改善ResNet模型。 这篇论文还提出了三种改善ASPP的方法,涉及了像素级特征的连接、加入1×1的卷积层和三个不同比率下3×3的空洞卷积,还在每个并行卷积层之后加入了批量归一化操作。 级联模块实际上是一个残差网络模块,但其中的空洞卷积层是以不同比率构建的。这个模块与空洞卷积论文中提到的背景模块相似,但直接应用到中间特征图谱中,而不是置信图谱。置信图谱是指其通道数与类别数相同的CNN网络顶层特征图谱。 该论文独立评估了这两个所提出的模型,尝试结合将两者结合起来并没有提高实际性能。两者在验证集上的实际性能相近,带有ASPP结构的模型表现略好一些,且没有加入CRF结构。 这两种模型的性能优于DeepLabv2模型的最优值,文章中还提到性能的提高是由于加入了批量归一化层和使用了更优的方法来编码多尺度背景。 △DeepLabv3 ASPP结构 分值 评论 来源85.7 使用了ASPP结构,且不带有级联模块 排行榜 △DeepLabv3 ASPP结构在VOC2012上测试的基准分值 原文地址: 【完】 一则通知 量子位读者5群开放申请,对人工智能感兴趣的朋友,可以添加量子位小助手的微信qbitbot2,申请入群,一起研讨人工智能。 (责任编辑:本港台直播) |