IEEE 神经网络顶刊论文分享
Enhanced Spatial Feature Learning for Weakly Supervised Object Detection
公众号介绍
本公众号将长期、持续致力于分享计算机视觉领域最前沿的科研动态,欢迎各位同学关注、点赞和分享,您的支持是我坚持下去最大的动力。后续将继续为进行代码解读、论文分享。
动动您的小手指,关注一下吧!
Part.1
摘要
目标检测(WSOD)已经成为一个有效的范例,它只需要类标签训练目标探测器。然而,WSOD检测器容易学习到与局部目标对应的高度判别性特征,而不是与完整目标对应的特征,导致目标定位不精确。为了解决这个问题,专门为WSOD设计骨干网是一个可行的解决方案。然而,重新设计的主干通常需要在大规模的ImageNet上进行预训练,或者从头开始训练,这两种方法都比微调需要更多的时间和计算成本。在本文中,我们探索在不失去原始预训练模型可用性的情况下优化主干。由于池化层总结了邻域特征,因此对空间特征学习至关重要。此外,它没有可学习的参数,所以它的修改不会改变预训练的模型。基于以上分析,我们进一步提出了WSOD的增强空间特征学习(enhanced spatial feature learning, ESFL),该方法首先充分利用单个池化层中的多个核来处理多尺度目标,然后增强矩形邻域内的高于平均水平的激活,以缓解忽略非显著目标部分的问题。在PASCAL VOC和MS COCO基准测试上的实验结果表明,ESFL可以显著提高WSOD方法的性能,并获得最先进的结果。
图1 WSOD中物体定位不精确样本。
Part.2
本文拟解决的问题
1.弱监督目标检测(WSOD)中的不精确目标定位问题:WSOD方法通常只能学习到局部目标的高区分度特征,而无法识别完整的目标,导致目标定位不准确。
2.现有WSOD方法中特征提取的局限性:现有的WSOD方法在特征提取时,由于池化层(如最大池化MaxPool)的限制,无法很好地处理多尺度目标,且容易忽略不显著的目标部分。
3.优化WSOD网络结构的挑战:在不破坏预训练模型的基础上,重新设计WSOD的网络结构,以提升特征提取能力,同时避免增加过多的计算开销。
图2 本文的网络架构
Part.3
创新点
1.提出混合最大池化(MixMaxPool):通过将特征图分组,并在不同组上应用不同尺寸的池化核,MixMaxPool能够同时利用多种尺度的特征,有效处理多尺度目标。这是首次将特征分组的概念引入池化层,且不引入可学习参数,避免了对预训练模型的破坏。
2.提出空间局部增强(SLE):SLE通过增强局部特征,使高响应特征能够覆盖更大的目标区域,从而缓解了忽略不显著目标部分的问题。该方法仅增强高于局部平均值的特征,避免了对背景区域的误增强。
3.提出增强空间特征学习(ESFL):将MixMaxPool和SLE结合,形成一种新的空间特征学习方法,用于优化WSOD中的特征提取过程。该方法在PASCAL VOC和MS COCO基准测试中取得了显著的性能提升,并达到了新的最佳结果。
图3 最大池化描述。
Part.4
方法流程
1. 背景介绍
文章基于一个典型的弱监督目标检测(WSOD)框架——OICR(Online Instance Classifier Refinement)。这个框架包含三个主要部分:
提案特征提取器:输入图像和生成的提案,通过骨干网络提取特征图,再经过空间金字塔池化(SPP)层和全连接(FC)层,生成提案特征向量。
多实例检测网络:将提案特征向量输入到两个分支,分别计算类别概率和提案贡献度,最终得到每个提案的分类得分。
实例分类器细化:通过多轮在线实例分类器细化,逐步提高检测精度。
2. 分析最大池化层的不足
文章指出,传统的最大池化(MaxPool)在处理多尺度目标时存在两个主要问题:
无法处理多尺度目标:MaxPool使用固定尺寸的池化核,难以同时处理不同尺度的目标。
忽略不显著的目标部分:MaxPool只保留局部区域内的最大激活值,容易忽略不显著的目标部分。
3. 混合最大池化(MixMaxPool)
为了解决上述问题,文章提出了混合最大池化(MixMaxPool)。具体步骤如下:
特征图分组:将输入的特征图分成多个组,每组包含部分通道。
多尺度池化:对每个组分别应用不同尺寸的MaxPool操作。例如,第一组使用较小的池化核(如2×2),第二组使用较大的池化核(如4×4)。
特征图拼接:将每个组经过MaxPool后的特征图拼接起来,形成最终的输出特征图。
通过这种方式,MixMaxPool能够同时利用多种尺度的特征,更好地处理多尺度目标,同时避免引入可学习参数,保持了预训练模型的完整性。
图4 混合最大池化。
4. 空间局部增强(SLE)
为了进一步增强特征图中的局部特征,文章提出了空间局部增强(SLE)。具体步骤如下:
计算局部平均值和最大值:对输入的特征图,分别进行平均池化和最大池化操作,得到每个位置的局部平均值和最大值。
增强特征:对于每个位置的特征值,如果它大于局部平均值,则将其替换为局部最大值。这样可以增强特征图中高响应区域的特征,使其覆盖更大的目标部分。
SLE的设计目的是增强不显著的目标部分,避免这些部分被网络忽略。
5. 增强空间特征学习(ESFL)
将MixMaxPool和SLE结合,形成完整的增强空间特征学习(ESFL)流程。具体步骤如下:
输入特征图:将输入的特征图X输入到ESFL模块。
MixMaxPool处理:先通过MixMaxPool对特征图进行多尺度池化,得到初步处理后的特征图。
SLE处理:再通过SLE对初步处理后的特征图进行局部增强,最终输出增强后的特征图Z。
Part.5
实验结果
图5 本文完整模型(右图为一组)与VOC 2007的基线(左图为一组)的比较。
图6 本文算法在VOC2007上失败案例。
表1 量化评估
表2 量化评估
领取专属 10元无门槛券
私享最新 技术干货