弱监督语义分割论文SEC详解(2016-ECCV):Seed, Expand and Constrain

AI深度学习求索

发布于 2018-12-11 17:03:03

2.6K0

发布于 2018-12-11 17:03:03

文章被收录于专栏：AI深度学习求索

论文SEC-Seed, Expand and Constrain: Three Principlesfor Weakly-Supervised Image Segmentation

1、总体架构

论文主题：

这篇论文主要讲了弱监督语义分割的一般方法，即三个基本的原则，Seed,Expand和Constrain。

其中，

seed: 即seed cues,一般使用CAM[1]方法对分割物体进行定位，首先找到物体的位置，要求定位准确，一般找到的位置十分小，不能直接当监督信息，需要根据seed对区域进行扩张
Expand：即在seed的基础上扩张seed cues区域，使被标记为object label的像素越来越多，可视化出来的物体区域越来越大，如果只有seed 和expand，那随着网络的训练，masks区域会不断增大，直至超过物体本身的大小，这样的结果也不够准确，所以，一般情况下，还会对物体的边界进行约束，限制expand.
Constrain：限制分割的物体边界，使其不会越界

2、架构构成

我们来看一下SEC:Seed, Expand and Constrain: Three Principlesfor Weakly-Supervised Image Segmentation具体是如何做的吧？

我们来看一下上面这篇文章的架构，我从论文中抠出来的图，首先，我们可以看到架构中存在着三个损失函数（Seeding Loss、Expansion Loss、Constrain-to-boundary Loss）分别对应三个原则中的三个部分：

seed loss:图片location cues上一个像素点被分类为label c的可能性，损失函数优化目标是使得可能性p尽可能地大，保证网络在cues下的正确性，根据cues来优化网络。
expand loss:模型的主网络为分割网络，输入原始图片，输出N个feature maps, 每一个feature map上的值表示图片该位置像素属于第N类的可能性。 loss保证图片上存在的类对应的feature map的值尽可能地大。这里模型中使用分类来保证，作者提出GWRP方法融合feature map的值得到分类的scores，以保证scores的值尽可能地大来间接保证网络分类准确性以及feature map定位为存在的类的准确性。
constrain loss:限制expand的边界，使其不过界，使用CRF方法，利用原图片本身的颜色等信息，以及分割得到的mask进行边界的约束。

3、三个Loss

1、Seeding Loss：

首先看一下Seeding Loss，从架构图中可以看出，seeding loss上半个分支只有向前的箭头（黑色）而没有回传的箭头（灰色），这是为何呢？

我们先了解一下，这个灰色箭头表示的是什么，这个表示回传梯度，网络训练优化参数便是通过回传梯度为基础进行的。这个分支没有回传箭头，也就意味着它不参入网络优化训练，是一次性的过程，也就是图片经过Weak Location生成seed cues,生成之后便作为监督信息，放在那里，方便以后使用，在网络训练过程中，即Seeding Loss 优化过程中seed cues也不再变化，后面的论文将其称为“静态监督”，这是限制SEC性能进一步提高的一个重要因素，接下来的论文很多围绕这个方面对SEC进行改进，从而获得比较好的结果。

(1)Location cues:

前景seed cues:

使用VGG预训练的模型初始化，改最后两个fc为convs（1024,3*3），最后由GAP融合为1024 --> 20,通过CAM取阈值为20%生成前景类的cues;

背景seed cues:

使用显著性检验方法，选择阈值为10%得到背景类的cues,将不同类堆叠在同一个map中则生成seed cues；

优点：定位准确

缺点：seed cues小而稀疏，在网络训练后期，可能由于太小反而限制了网络的进一步优化。

(2)公式：

解释：

X-为输入图片

T – 分类类别

Sc – 网络根据CAM方法生成的c类feature map的seed cues区域

Fu,c(X) - u为图片中属于Sc内的像素，c为类别，Fu,c(X)为网络模型输出的预测位置u属于c类的概率值。

Lseed在优化过程中，目标使得Lseed的值尽可能小，即使得图片中在对应着location cues区域Sc上一个像素点被分类为label c的可能性尽可能地大，即可以保证seed cues在分割网络中的正确性。

(3)示意图

2、Expansion Loss ：

由CAM方法生成的初始Seed cues虽然准确但是小而稀疏，不能直接作为分割mask，作者设计expand分支网络，在seed cues的基础上，扩张分割区域，即扩张确定label的区域。

作者设计的扩张分支十分简单，直接以分割网络为基础，分割网络生成的是C个feature maps，其上每一个像素的值分别对应着图片每一个像素属于对应的C类的可能性大小。

对于图片中存在的类别，该类别对应的feature map上应该存在不为0的值，且会存在一个物体区域。作者简单的利用分类Loss来设计expand loss，将分割网络输出的feature map的值融合为一个分类分值，C个feature maps刚好融合为图片对C类的预测分值。这个分值越大，则表示图片中存在这个类别物体的可能性越大，也可以驱使这个feature map 上的像素的值越大，存在较大值的区域越大。

如何将feature map融合为一个分类分值呢？

一般的做法大多是取均值或者最大值，但是取均值一般会低估网络的性能，而去最大值则会高估性能，作者设计的GWRP方法针对一个feature map，对于其中的预测值大的像素取较大的权重，而对预测值小的像素取较小的权重，使用加权和作为分类分值。

GWRP:

对于图片输入网络输出的feature maps中C个feature map,每个map有n个像素，对这n个像素的对应预测为label c的分值的大小进行排序，