论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

论文题目:基于像素间关系的弱监督语义分割(Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations)

论文来源:2019 [CVPR] http://arxiv.org/pdf/1904.05044

一、简介

       论文提出了一种基于图像级分类标签的弱监督实例分割方法。该方法的基本思路是:首先训练分类网络(论文中为ResNet50),得到类激活图(CAM图)。然而CAM图本身既不能区分不同的实例,也不能发现具有精确边界的完整实例区域。因此论文设计了一个具有两个分支的IRNet,根据CAM图的置信区域,学习实例的中心偏移(displacement)和类边界图(class boundary map),并结合中心偏移和类边界图,根据Random walk算法,获取相对完成的实例区域。

二、网络模型

1、整体框架

      如图所示,论文设计的网络整体框架由三个分支构成:分别是分类网络用于获取CAM图(得到种子区域)、IRNet的Displacement估算网络(获取Expand的依据)和ClassBoundary估计类边界(用于限定扩展的约束)。

论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

2、基础网络

      论文基础网络采用的是ResNet50网络。利用预训练模型,在数据集上,根据类标签,训练分类网络并得到CAM图。同时将ResNet50的不同stage的输出作为IRNet的每一个level的输入。

      论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

3、IRNet

     IRNet的基本结构如下。其中level2-level5分别对应ResNet50的conv2-conv5(其中conv5的下采样改为1,使其与conv4的size一致)。同时,根据代码IRnet中的level1即为上图中的conv1+max pooling构成。此外,整个网络的输出size统一到conv3(28*28)而非论文中的1/16。因此,level1和level2需要下采样,而level4和level5上采用。

     论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

三、训练数据的获取

      有了上图的网络模型后,如何获取可信的训练数据成为网络学习的关键。注意论文的弱监督学习已有标记仅有图片类标签。因此,论文从CAM图出发,通过对CAM前景、背景的阈值化、DenseCRF运算得到confident area,然后从该区域中r范围(r=10像素)内选取若干个点对。用于训练IRNet。如下图所示为获取confident area的基本流程。

论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

四、损失函数的设计

     两个分支通过最小化如式(9)所示的损失函数联合训练。

论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

   其中,displacement loss函数为:

  论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

        论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

   其中

     论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

      前景displacement loss基于指向同一中心的像素点坐标+偏移量相等的这一基本观察得到。即:如果两个像素点属于同一类,它们会指向同一个中心点,那么最小化xj-xi与D(xi)-D(xj)的L1-loss。对于背景来说,其中心点不固定,因此

(xj)这一假设得到。

论文笔记二:Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

上一篇:unittest单元测试框架之unittest 框架的总结(七)


下一篇:SA-UNet: Spatial Attention U-Net for Retinal Vessel Segmentation