本港台开奖现场直播 j2开奖直播报码现场
当前位置: 新闻频道 > IT新闻 >

码报:语义分割中的深度学习方法全解:从FCN、SegNet到(3)

时间:2017-07-11 00:29来源:报码现场 作者:j2开奖直播 点击:
这篇文章所提到的背景模块单独训练了前端模块的输出,作为该模型的输入。该模块是由不同扩张程度的空洞卷积层级联而得到的,从而聚集多尺度背景模

这篇文章所提到的背景模块单独训练了前端模块的输出,作为该模型的输入。该模块是由不同扩张程度的空洞卷积层级联而得到的,从而聚集多尺度背景模块并改善前端预测效果。

分值 评论 来源
71.3   前端   空洞卷积论文  
73.5   前端+背景   同上  
74.7   前端+背景+ CRF   同上  
75.3   前端+背景+ CRF - RNN   同上  
空洞卷积在VOC2012上测试的基准分值

个人评论:

需要注意的是,该模型预测分割图的大小是原图像大小的1/8。这是几乎所有方法中都存在的问题,将通过内插方法得到最终分割图。

DeepLab(v1和v2)

论文1:

Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs

于2014年12月22日提交到Arvix

https://arxiv.org/abs/1412.7062

论文2:

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs

于2016年6月2日提交到Arxiv

https://arxiv.org/abs/1606.00915

主要贡献:

使用了空洞卷积;

提出了在空间维度上实现金字塔型的空洞池化atrous spatial pyramid pooling(ASPP);

使用了全连接条件随机场。

具体解释:

空洞卷积在不增加参数数量的情况下增大了感受野,按照上文提到的空洞卷积论文的做法,可以改善分割网络。

我们可以通过将原始图像的多个重新缩放版本传递到CNN网络的并行分支(即图像金字塔)中,或是可使用不同采样率(ASPP)的多个并行空洞卷积层,这两种方法均可实现多尺度处理。

我们也可通过全连接条件随机场实现结构化预测,需将条件随机场的训练和微调单独作为一个后期处理步骤。

码报:语义分割中的深度学习方法全解:从FCN、SegNet到

DeepLab2网络的处理流程

分值 评论 来源
79.7   ResNet-101 + 空洞卷积 + ASPP + CRF   排行榜  
DeepLab2网络在VOC2012上测试的基准分值 RefineNet

论文:

RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation

于2016年11月20日提交到Arxiv

https://arxiv.org/abs/1611.06612

主要贡献:

带有精心设计解码器模块的编码器-解码器结构;

所有组件遵循残差连接的设计方式。

具体解释:

使用空洞卷积的方法也存在一定的缺点,它的计算成本比较高,同时由于需处理大量高分辨率特征图谱,会占用大量内存,这个问题阻碍了高分辨率预测的计算研究。

DeepLab得到的预测结果只有原始输入的1/8大小。

所以,这篇论文提出了相应的编码器-解码器结构,其中编码器是ResNet-101模块,直播,解码器为能融合编码器高分辨率特征和先前RefineNet模块低分辨率特征的RefineNet模块。

码报:语义分割中的深度学习方法全解:从FCN、SegNet到

RefineNet网络结构

每个RefineNet模块包含一个能通过对较低分辨率特征进行上采样来融合多分辨率特征的组件,以及一个能基于步幅为1及5×5大小的重复池化层来获取背景信息的组件。

这些组件遵循恒等映射的思想,采用了残差连接的设计方式。

码报:语义分割中的深度学习方法全解:从FCN、SegNet到

RefineNet模块

分值 评论 来源
84.2   CRF + 多维度输入 + COCO预训练   排行榜  
RefineNet网络在VOC2012上测试的基准分值 PSPNet

论文:

Pyramid Scene Parsing Network

于2016年12月4日提交到Arxiv

https://arxiv.org/abs/1612.01105

主要贡献:

提出了金字塔池化模块来聚合背景信息;

使用了附加损失(auxiliary loss)。

具体解释:

全局场景分类很重要,由于它提供了分割类别分布的线索。金字塔池化模块使用大内核池化层来捕获这些信息。

(责任编辑:本港台直播)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
推荐内容