在深度神经网络的提出后,监督学习在很多的任务中都已经取得super-human的表现,但是我们实际的生活中获得标注信息是有一定的代价的,或者说是有难度的。另外,大多数时候,我们能获得的标签是有噪声的,不完整的,不确切的[Zhou. Review]。比如,我们要进行图像分割时,获得图像的类别信息是非常容易的,但是要对图像中感兴趣的目标进行标注就需要一定的代价,如果放在医疗影像上,还需要一定的专家知识。那么采用弱监督学习,我们可以或许可以能够弥补由于标签有噪声,不全,不确定等带来的问题。
下面介绍一篇通过图像级别的标签做分类和目标检测的任务
论文:STJU Collaborative Learning for Weakly Supervised Object Detection, [2018 IJCAI oral] https://arxiv.org/pdf/1802.03531.pdf
先看一下摘要
该模型在数据集 PASCAL VOC 2007和2012进行了验证,论文的主要思想是采用两个检测器(dectors),一个走弱监督的框架,预测出来的位置信息用于第二个检测器的(伪)标签走强监督的框架,两者协同学习实现分类和定位两个任务。
论文摘要
网络框架
网络框架
下面是更为详细的结构
下面的蓝色的部分是弱监督学习框架(WSCND), 其中SSW: selective search;SPP: ROI pooling.
弱监督框架中上面的一路用来产生each 框对应各个类别的概率值(classification score,S(cls)),下面的一路产生位置的置信度(location score, S(loc),跟faster-RCNN的坐标值有点不一样)
两个得分相乘之后,就得到了候选框的得分(p),把所有的候选框得分汇聚在一起得到预测的标签(y),对应的损失函数是多标签二元交叉熵:
上面红色的区域Faster-RCNN 强监督学习框架,监督信号来自弱监督预测的信息{(p,t)}.
公式中,前面两项是分类的交叉熵,最后一项是让两个网络定位一致的一项损失函数
一些细节
在弱监督框架中SSW会产生很多的候选框,这里采用max-out的思想,也就是只保留概率值最大的几项对应的框
参数共享
因为两个网络的任务相似,所以特征提取层和底端全连接层可以共享
实验结果
可以看出,在训练的初始阶段,弱监督检测网络准确率高于强监督检测网络。随着协同训练轮次的增多,两者的准确率均逐渐上升,但强监督检测网络提升的速度更快,并很快超越弱监督检测网络。在整个训练过程中,两类检测网络相互协同,达到了共同提高的效果
参考资料
[0]https://arxiv.org/pdf/1802.03531.pdf
[1]https://www.jianshu.com/p/edbf70ccb5c8
[2]https://yq.aliyun.com/articles/592778
领取专属 10元无门槛券
私享最新 技术干货