这篇文章所提到的背景模块单独训练了前端模块的输出,作为该模型的输入。该模块是由不同扩张程度的空洞卷积层级联而得到的,从而聚集多尺度背景模块并改善前端预测效果。 分值 评论 来源71.3 前端 空洞卷积论文 73.5 前端+背景 同上 74.7 前端+背景+ CRF 同上 75.3 前端+背景+ CRF - RNN 同上 △空洞卷积在VOC2012上测试的基准分值 个人评论: 需要注意的是,该模型预测分割图的大小是原图像大小的1/8。这是几乎所有方法中都存在的问题,将通过内插方法得到最终分割图。 DeepLab(v1和v2) 论文1: Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs 于2014年12月22日提交到Arvix https://arxiv.org/abs/1412.7062 论文2: DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs 于2016年6月2日提交到Arxiv https://arxiv.org/abs/1606.00915 主要贡献: 使用了空洞卷积; 提出了在空间维度上实现金字塔型的空洞池化atrous spatial pyramid pooling(ASPP); 使用了全连接条件随机场。 具体解释: 空洞卷积在不增加参数数量的情况下增大了感受野,按照上文提到的空洞卷积论文的做法,可以改善分割网络。 我们可以通过将原始图像的多个重新缩放版本传递到CNN网络的并行分支(即图像金字塔)中,或是可使用不同采样率(ASPP)的多个并行空洞卷积层,这两种方法均可实现多尺度处理。 我们也可通过全连接条件随机场实现结构化预测,需将条件随机场的训练和微调单独作为一个后期处理步骤。 △DeepLab2网络的处理流程 分值 评论 来源79.7 ResNet-101 + 空洞卷积 + ASPP + CRF 排行榜 △DeepLab2网络在VOC2012上测试的基准分值 RefineNet 论文: RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation 于2016年11月20日提交到Arxiv https://arxiv.org/abs/1611.06612 主要贡献: 带有精心设计解码器模块的编码器-解码器结构; 所有组件遵循残差连接的设计方式。 具体解释: 使用空洞卷积的方法也存在一定的缺点,它的计算成本比较高,同时由于需处理大量高分辨率特征图谱,会占用大量内存,这个问题阻碍了高分辨率预测的计算研究。 DeepLab得到的预测结果只有原始输入的1/8大小。 所以,这篇论文提出了相应的编码器-解码器结构,其中编码器是ResNet-101模块,直播,解码器为能融合编码器高分辨率特征和先前RefineNet模块低分辨率特征的RefineNet模块。 △RefineNet网络结构 每个RefineNet模块包含一个能通过对较低分辨率特征进行上采样来融合多分辨率特征的组件,以及一个能基于步幅为1及5×5大小的重复池化层来获取背景信息的组件。 这些组件遵循恒等映射的思想,采用了残差连接的设计方式。 △RefineNet模块 分值 评论 来源84.2 CRF + 多维度输入 + COCO预训练 排行榜 △RefineNet网络在VOC2012上测试的基准分值 PSPNet 论文: Pyramid Scene Parsing Network 于2016年12月4日提交到Arxiv https://arxiv.org/abs/1612.01105 主要贡献: 提出了金字塔池化模块来聚合背景信息; 使用了附加损失(auxiliary loss)。 具体解释: 全局场景分类很重要,由于它提供了分割类别分布的线索。金字塔池化模块使用大内核池化层来捕获这些信息。 (责任编辑:本港台直播) |