论文笔记二：Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations

2024-02-05 19:12:28

论文题目：基于像素间关系的弱监督语义分割（Weakly Supervised Learning of Instance Segmentation with Inter-pixel Relations）

论文来源：2019 [CVPR] http://arxiv.org/pdf/1904.05044

一、简介

论文提出了一种基于图像级分类标签的弱监督实例分割方法。该方法的基本思路是：首先训练分类网络（论文中为ResNet50），得到类激活图（CAM图）。然而CAM图本身既不能区分不同的实例，也不能发现具有精确边界的完整实例区域。因此论文设计了一个具有两个分支的IRNet，根据CAM图的置信区域，学习实例的中心偏移（displacement）和类边界图（class boundary map），并结合中心偏移和类边界图，根据Random walk算法，获取相对完成的实例区域。

二、网络模型

1、整体框架

如图所示，论文设计的网络整体框架由三个分支构成：分别是分类网络用于获取CAM图（得到种子区域）、IRNet的Displacement估算网络（获取Expand的依据）和ClassBoundary估计类边界（用于限定扩展的约束）。

2、基础网络

论文基础网络采用的是ResNet50网络。利用预训练模型，在数据集上，根据类标签，训练分类网络并得到CAM图。同时将ResNet50的不同stage的输出作为IRNet的每一个level的输入。

3、IRNet

IRNet的基本结构如下。其中level2-level5分别对应ResNet50的conv2-conv5（其中conv5的下采样改为1，使其与conv4的size一致）。同时，根据代码IRnet中的level1即为上图中的conv1+max pooling构成。此外，整个网络的输出size统一到conv3（28*28）而非论文中的1/16。因此，level1和level2需要下采样，而level4和level5上采用。

三、训练数据的获取

有了上图的网络模型后，如何获取可信的训练数据成为网络学习的关键。注意论文的弱监督学习已有标记仅有图片类标签。因此，论文从CAM图出发，通过对CAM前景、背景的阈值化、DenseCRF运算得到confident area，然后从该区域中r范围（r=10像素）内选取若干个点对。用于训练IRNet。如下图所示为获取confident area的基本流程。

四、损失函数的设计

两个分支通过最小化如式（9）所示的损失函数联合训练。

其中，displacement loss函数为：

其中

前景displacement loss基于指向同一中心的像素点坐标+偏移量相等的这一基本观察得到。即：如果两个像素点属于同一类，它们会指向同一个中心点，那么最小化xj-xi与D(xi)-D(xj)的L1-loss。对于背景来说，其中心点不固定，因此

(xj)这一假设得到。

码农公寓

相关文章