文章/答案/技术大牛

发布

IEEE 神经网络顶刊论文分享--无监督目标检测

文章来源：企鹅号 - 博士看世界

IEEE 神经网络顶刊论文分享

Enhanced Spatial Feature Learning for Weakly Supervised Object Detection

公众号介绍

本公众号将长期、持续致力于分享计算机视觉领域最前沿的科研动态，欢迎各位同学关注、点赞和分享，您的支持是我坚持下去最大的动力。后续将继续为进行代码解读、论文分享。

动动您的小手指，关注一下吧！

Part.1

摘要

目标检测（WSOD）已经成为一个有效的范例，它只需要类标签训练目标探测器。然而，WSOD检测器容易学习到与局部目标对应的高度判别性特征，而不是与完整目标对应的特征，导致目标定位不精确。为了解决这个问题，专门为WSOD设计骨干网是一个可行的解决方案。然而，重新设计的主干通常需要在大规模的ImageNet上进行预训练，或者从头开始训练，这两种方法都比微调需要更多的时间和计算成本。在本文中，我们探索在不失去原始预训练模型可用性的情况下优化主干。由于池化层总结了邻域特征，因此对空间特征学习至关重要。此外，它没有可学习的参数，所以它的修改不会改变预训练的模型。基于以上分析，我们进一步提出了WSOD的增强空间特征学习（enhanced spatial feature learning， ESFL），该方法首先充分利用单个池化层中的多个核来处理多尺度目标，然后增强矩形邻域内的高于平均水平的激活，以缓解忽略非显著目标部分的问题。在PASCAL VOC和MS COCO基准测试上的实验结果表明，ESFL可以显著提高WSOD方法的性能，并获得最先进的结果。

图1 WSOD中物体定位不精确样本。

Part.2

本文拟解决的问题

1.弱监督目标检测（WSOD）中的不精确目标定位问题：WSOD方法通常只能学习到局部目标的高区分度特征，而无法识别完整的目标，导致目标定位不准确。

2.现有WSOD方法中特征提取的局限性：现有的WSOD方法在特征提取时，由于池化层（如最大池化MaxPool）的限制，无法很好地处理多尺度目标，且容易忽略不显著的目标部分。

3.优化WSOD网络结构的挑战：在不破坏预训练模型的基础上，重新设计WSOD的网络结构，以提升特征提取能力，同时避免增加过多的计算开销。

图2 本文的网络架构

Part.3

创新点

1.提出混合最大池化（MixMaxPool）：通过将特征图分组，并在不同组上应用不同尺寸的池化核，MixMaxPool能够同时利用多种尺度的特征，有效处理多尺度目标。这是首次将特征分组的概念引入池化层，且不引入可学习参数，避免了对预训练模型的破坏。

2.提出空间局部增强（SLE）：SLE通过增强局部特征，使高响应特征能够覆盖更大的目标区域，从而缓解了忽略不显著目标部分的问题。该方法仅增强高于局部平均值的特征，避免了对背景区域的误增强。

3.提出增强空间特征学习（ESFL）：将MixMaxPool和SLE结合，形成一种新的空间特征学习方法，用于优化WSOD中的特征提取过程。该方法在PASCAL VOC和MS COCO基准测试中取得了显著的性能提升，并达到了新的最佳结果。

图3 最大池化描述。

Part.4

方法流程

1. 背景介绍

文章基于一个典型的弱监督目标检测（WSOD）框架——OICR（Online Instance Classifier Refinement）。这个框架包含三个主要部分：

提案特征提取器：输入图像和生成的提案，通过骨干网络提取特征图，再经过空间金字塔池化（SPP）层和全连接（FC）层，生成提案特征向量。

多实例检测网络：将提案特征向量输入到两个分支，分别计算类别概率和提案贡献度，最终得到每个提案的分类得分。

实例分类器细化：通过多轮在线实例分类器细化，逐步提高检测精度。

2. 分析最大池化层的不足

文章指出，传统的最大池化（MaxPool）在处理多尺度目标时存在两个主要问题：

无法处理多尺度目标：MaxPool使用固定尺寸的池化核，难以同时处理不同尺度的目标。

忽略不显著的目标部分：MaxPool只保留局部区域内的最大激活值，容易忽略不显著的目标部分。

3. 混合最大池化（MixMaxPool）

为了解决上述问题，文章提出了混合最大池化（MixMaxPool）。具体步骤如下：

特征图分组：将输入的特征图分成多个组，每组包含部分通道。

多尺度池化：对每个组分别应用不同尺寸的MaxPool操作。例如，第一组使用较小的池化核（如2×2），第二组使用较大的池化核（如4×4）。

特征图拼接：将每个组经过MaxPool后的特征图拼接起来，形成最终的输出特征图。

通过这种方式，MixMaxPool能够同时利用多种尺度的特征，更好地处理多尺度目标，同时避免引入可学习参数，保持了预训练模型的完整性。

图4 混合最大池化。

4. 空间局部增强（SLE）

为了进一步增强特征图中的局部特征，文章提出了空间局部增强（SLE）。具体步骤如下：

计算局部平均值和最大值：对输入的特征图，分别进行平均池化和最大池化操作，得到每个位置的局部平均值和最大值。

增强特征：对于每个位置的特征值，如果它大于局部平均值，则将其替换为局部最大值。这样可以增强特征图中高响应区域的特征，使其覆盖更大的目标部分。

SLE的设计目的是增强不显著的目标部分，避免这些部分被网络忽略。

5. 增强空间特征学习（ESFL）

将MixMaxPool和SLE结合，形成完整的增强空间特征学习（ESFL）流程。具体步骤如下：

输入特征图：将输入的特征图X输入到ESFL模块。

MixMaxPool处理：先通过MixMaxPool对特征图进行多尺度池化，得到初步处理后的特征图。

SLE处理：再通过SLE对初步处理后的特征图进行局部增强，最终输出增强后的特征图Z。

Part.5

实验结果

图5 本文完整模型（右图为一组）与VOC 2007的基线（左图为一组）的比较。

图6 本文算法在VOC2007上失败案例。

表1 量化评估

表2 量化评估

发表于: 2025-04-182025-04-18 22:35:19
原文链接：https://page.om.qq.com/page/OFRHenNaeAyO5PFOhboZpQIw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

IEEE 神经网络顶刊论文分享--无监督目标检测

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐