论文阅读-基于网络协同的弱监督学习框架用于目标检测

在深度神经网络的提出后,监督学习在很多的任务中都已经取得super-human的表现,但是我们实际的生活中获得标注信息是有一定的代价的,或者说是有难度的。另外,大多数时候,我们能获得的标签是有噪声的,不完整的,不确切的[Zhou. Review]。比如,我们要进行图像分割时,获得图像的类别信息是非常容易的,但是要对图像中感兴趣的目标进行标注就需要一定的代价,如果放在医疗影像上,还需要一定的专家知识。那么采用弱监督学习,我们可以或许可以能够弥补由于标签有噪声,不全,不确定等带来的问题。

下面介绍一篇通过图像级别的标签做分类和目标检测的任务

论文:STJU Collaborative Learning for Weakly Supervised Object Detection, [2018 IJCAI oral] https://arxiv.org/pdf/1802.03531.pdf

先看一下摘要

该模型在数据集 PASCAL VOC 2007和2012进行了验证,论文的主要思想是采用两个检测器(dectors),一个走弱监督的框架,预测出来的位置信息用于第二个检测器的(伪)标签走强监督的框架,两者协同学习实现分类和定位两个任务。

论文摘要

网络框架

网络框架

下面是更为详细的结构

下面的蓝色的部分是弱监督学习框架(WSCND), 其中SSW: selective search;SPP: ROI pooling.

弱监督框架中上面的一路用来产生each 框对应各个类别的概率值(classification score,S(cls)),下面的一路产生位置的置信度(location score, S(loc),跟faster-RCNN的坐标值有点不一样)

两个得分相乘之后,就得到了候选框的得分(p),把所有的候选框得分汇聚在一起得到预测的标签(y),对应的损失函数是多标签二元交叉熵:

上面红色的区域Faster-RCNN 强监督学习框架,监督信号来自弱监督预测的信息{(p,t)}.

公式中,前面两项是分类的交叉熵,最后一项是让两个网络定位一致的一项损失函数

一些细节

在弱监督框架中SSW会产生很多的候选框,这里采用max-out的思想,也就是只保留概率值最大的几项对应的框

参数共享

因为两个网络的任务相似,所以特征提取层和底端全连接层可以共享

实验结果

可以看出,在训练的初始阶段,弱监督检测网络准确率高于强监督检测网络。随着协同训练轮次的增多,两者的准确率均逐渐上升,但强监督检测网络提升的速度更快,并很快超越弱监督检测网络。在整个训练过程中,两类检测网络相互协同,达到了共同提高的效果

参考资料

[0]https://arxiv.org/pdf/1802.03531.pdf

[1]https://www.jianshu.com/p/edbf70ccb5c8

[2]https://yq.aliyun.com/articles/592778

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181208G02PV000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券