论文SEC-Seed, Expand and Constrain: Three Principlesfor Weakly-Supervised Image Segmentation
1、总体架构
论文主题:
这篇论文主要讲了弱监督语义分割的一般方法,即三个基本的原则,Seed,Expand和Constrain。
其中,
2、架构构成
我们来看一下SEC:Seed, Expand and Constrain: Three Principlesfor Weakly-Supervised Image Segmentation具体是如何做的吧?
我们来看一下上面这篇文章的架构,我从论文中抠出来的图,首先,我们可以看到架构中存在着三个损失函数(Seeding Loss、Expansion Loss、Constrain-to-boundary Loss)分别对应三个原则中的三个部分:
3、三个Loss
1、Seeding Loss:
首先看一下Seeding Loss,从架构图中可以看出,seeding loss上半个分支只有向前的箭头(黑色)而没有回传的箭头(灰色),这是为何呢?
我们先了解一下,这个灰色箭头表示的是什么,这个表示回传梯度,网络训练优化参数便是通过回传梯度为基础进行的。这个分支没有回传箭头,也就意味着它不参入网络优化训练,是一次性的过程,也就是图片经过Weak Location生成seed cues,生成之后便作为监督信息,放在那里,方便以后使用,在网络训练过程中,即Seeding Loss 优化过程中seed cues也不再变化,后面的论文将其称为“静态监督”,这是限制SEC性能进一步提高的一个重要因素,接下来的论文很多围绕这个方面对SEC进行改进,从而获得比较好的结果。
(1)Location cues:
前景seed cues:
背景seed cues:
优点:定位准确
缺点:seed cues小而稀疏,在网络训练后期,可能由于太小反而限制了网络的进一步优化。
(2)公式:
解释:
X-为输入图片
T – 分类类别
Sc – 网络根据CAM方法生成的c类feature map的seed cues区域
Fu,c(X) - u为图片中属于Sc内的像素,c为类别,Fu,c(X)为网络模型输出的预测位置u属于c类的概率值。
Lseed在优化过程中,目标使得Lseed的值尽可能小,即使得图片中在对应着location cues区域Sc上一个像素点被分类为label c的可能性尽可能地大,即可以保证seed cues在分割网络中的正确性。
(3)示意图
2、Expansion Loss :
由CAM方法生成的初始Seed cues虽然准确但是小而稀疏,不能直接作为分割mask,作者设计expand分支网络,在seed cues的基础上,扩张分割区域,即扩张确定label的区域。
作者设计的扩张分支十分简单,直接以分割网络为基础,分割网络生成的是C个feature maps,其上每一个像素的值分别对应着图片每一个像素属于对应的C类的可能性大小。
对于图片中存在的类别,该类别对应的feature map上应该存在不为0的值,且会存在一个物体区域。作者简单的利用分类Loss来设计expand loss,将分割网络输出的feature map的值融合为一个分类分值,C个feature maps刚好融合为图片对C类的预测分值。这个分值越大,则表示图片中存在这个类别物体的可能性越大,也可以驱使这个feature map 上的像素的值越大,存在较大值的区域越大。
如何将feature map融合为一个分类分值呢?
一般的做法大多是取均值或者最大值,但是取均值一般会低估网络的性能,而去最大值则会高估性能,作者设计的GWRP方法针对一个feature map,对于其中的预测值大的像素取较大的权重,而对预测值小的像素取较小的权重,使用加权和作为分类分值。
GWRP:
对于图片输入网络输出的feature maps中C个feature map,每个map有n个像素,对这n个像素的对应预测为label c的分值的大小进行排序,
对于权重d:
对于分割网络生成的c+1个feature maps,对于c对应的feature map fc,使其上的属于label c的可能性越来越大,具有确定label的区域越来越大。
公式:
Gc为由feature map融合的分值(GWRP):
Lexpand作用为使得图片中存在的类的分值尽可能大,不存在的类的分值尽可能小,背景类的值尽可能地大,如同分类一般。
3,constrain loss
如果仅仅有seed loss 定位,expand loss 扩展seed 区域,而不加以限制的话,分割网络预测的分割图很容易便会超出物体实际的边界,造成较低的性能。作者在这篇文章中利用条件随机场CRF,根据图片本身的颜色等信息,对物体边界进行限制,使模型能够获得较好的结果。
公式:
理解:KL散度,使得网络输出接近CRF的输出
CRF的使用:(具体使用方法,以后再讲)
SEC方法:
数据集:VOC扩充【10】至10582的数据
分割网络:DeepLab-CRF-LargeFOV
数据尺寸:input:(321*321)--> 分割mask(41*41)
结果:51.7%
存在问题:
普遍挑战:
探究分析:
(1)GWRP
fg fraction:预测为fg的像素/总的像素
(2)Loss的作用
(3)感受野