文章/答案/技术大牛

发布

IEEE TGRS顶刊文章分享--红外目标检测

文章来源：企鹅号 - 博士看世界

IEEE TGRS顶刊文章分享

Moderately Dense Adaptive Feature Fusion Network for Infrared Small Target Detection

公众号介绍

本公众号将长期、持续致力于分享计算机视觉领域最前沿的科研动态，欢迎各位同学关注、点赞和分享，您的支持是我坚持下去最大的动力。后续将继续为进行代码解读、论文分享。

动动您的小手指，关注一下吧！

Part.1

摘要

快速准确地检测复杂背景下的红外小目标一直是一项具有挑战性的任务。数据驱动方法由于其强大的特征提取能力而取得了良好的效果。许多算法使用ResNet或VGG作为其骨干，但由于其规模小且特征不明显，在其网络中池化层可能导致深层目标丢失。尽管提出了密集的网络结构来缓解这一问题，但其过于密集的连接使实时检测变得困难。为了满足精确性能和实时检测的要求，本文提出了中等密度的自适应特征融合网络（MDAFNet）。本文设计了一个中等密度的自适应特征融合（MDAF）模块，它只包含三个特征层作为网络的主干。该模块将所有内部特征相互连接，并使用不同层的加权和作为输出，促进特征重用，保持网络深层的红外小目标特征。本文还设计了一个从粗到精的检测头（CFHead），并引入了辅助损耗，使网络能够以更高的精度预测目标轮廓。此外，本文还提出了一种新的数据增强方法，有效地提高了网络的泛化性能。实验结果表明，我们的网络在检测精度上取得了优异的性能，满足了RTX3080 GPU实时检测的要求。

图1 IRSTD-1k数据集的图像处理说明。每个图像以中心为参照点分为四个部分。红色的叉表示删除的部分。为了增强目标轮廓信息的可见性，将目标放大并定位在图像的右上角。

Part.2

本文拟解决的问题

1.红外小目标检测中的目标丢失问题：在复杂的背景中，红外小目标由于尺寸小、特征不明显，容易在深度网络的池化层中丢失。

2.实时性与准确性的平衡问题：现有的密集连接网络虽然能够缓解目标丢失问题，但计算复杂度过高，难以满足实时检测的要求。

3.目标轮廓预测不准确问题：现有的检测方法只能检测到小目标的存在，但无法精确预测目标的轮廓。

4.数据增强方法不足问题：现有的数据增强方法难以有效提升红外小目标检测的泛化能力。

图2 MDAFNet阐述。网络的编码分为三个阶段。在每个阶段中，第一个MDAF模块的最后一层输出的通道数量是输入通道数量的两倍，其他层保持与输入通道相同的通道。此外，在每两个阶段之间进行降采样，将特征映射的大小减少一半，SCx表示1 × 1卷积。

Part.3

创新点

1.提出了一种适度密集自适应特征融合模块（MDAF模块）：通过仅包含三层特征的适度密集连接，促进特征重用，并在深度层中保持红外小目标的特征。

图3 ResNet和MDAF的基本模块。

2.设计了一种从粗到精的检测头（CFHead）：通过引入辅助损失函数和不同膨胀率的卷积操作，精确预测目标轮廓。

3.提出了一种多对比度不同亮度的数据增强方法：通过扩展图像的对比度和亮度范围，显著提升数据数量和网络的泛化性能。

Part.4

方法流程

1. 输入与数据增强

输入：单帧红外小目标图像。

数据增强：采用多对比度不同亮度的数据增强方法。将原始图像的像素值线性插值到多个不同的亮度和对比度范围（例如0-100、0-150、0-200、0-255、200-255、150-255、100-255等）。通过这种方式，一张图像可以扩展为多张不同亮度和对比度的图像，从而增加数据的多样性，提升网络的泛化能力。

2. 编码阶段（特征提取）

编码阶段分为三个阶段，每个阶段包含两个MDAF模块。网络通过逐步下采样和特征提取，生成不同层次的特征图。

MDAF模块（Moderately Dense Adaptive Feature Fusion Module）

输入处理：输入图像首先经过一个3×3的卷积层，提取初始特征图（S0）。这一层的卷积核较大，用于获得较大的感受野。

特征融合：MDAF模块内部包含三个特征层（输入层、中间层和输出层）。每一层的特征图都与其他层的特征图进行连接。与ResNet中的残差连接不同，MDAF模块通过1×1卷积对不同层的特征图进行加权求和，从而自适应地分配权重，增强特征的重用和传播。

输出：MDAF模块的输出是经过1×1卷积加权融合后的特征图。这种设计使得网络能够更好地保留红外小目标的特征，即使在网络的深层也能保持目标信息。

下采样

在每两个阶段之间进行下采样操作，将特征图的尺寸减半，同时将通道数加倍。这种操作有助于提取更高层次的语义信息，同时减少计算量。

3. 解码阶段（特征融合与上采样）

解码阶段的目标是将编码阶段提取的深层特征与浅层特征进行融合，以生成更丰富的语义信息。

跳跃连接

特征融合：在解码阶段，网络采用跳跃连接结构，将编码阶段的特征图与解码阶段的特征图进行融合。与UNet类似，但这里使用1×1卷积进行特征融合，而不是直接拼接。1×1卷积的作用是自适应地对不同层次的特征图进行线性组合，增强特征的表达能力。

上采样：通过最近邻插值方法将特征图的尺寸恢复到与浅层特征图相同的大小，以便进行融合。

4. 检测头（CFHead）

检测头的设计目标是精确预测目标的轮廓。

粗预测

初始预测：首先通过3×3卷积层生成一个初始的粗预测结果。这个粗预测结果是一个初步的目标分割图，但轮廓可能不够精确。

辅助损失：在粗预测阶段引入辅助损失函数，帮助网络优化粗预测结果，使其更接近真实标注。辅助损失的作用是减少粗预测中的错误像素数量。

精预测

轮廓细化：使用不同膨胀率（例如1、2、3、4）的3×3卷积对粗预测结果进行细化。这些卷积操作可以捕捉不同尺度的上下文信息，从而更精确地预测目标的轮廓。

最终输出：将经过细化的特征图相加，生成最终的分割结果，用于目标检测和轮廓预测。

5. 损失函数

总损失：网络的总损失由两部分组成：辅助损失（用于优化粗预测结果）和主分支损失（用于优化最终的分割结果）。通过调整辅助损失的权重（例如α=0.8），可以平衡粗预测和精预测的优化过程。

6. 输出

分割结果：网络输出最终的分割结果，其中目标区域的像素值大于0.5，背景区域的像素值小于0.5。这一结果用于检测目标的位置和轮廓。

总结：整个方法流程通过MDAF模块增强特征传播和重用，通过CFHead实现从粗到精的轮廓预测，并通过多对比度数据增强提升网络的泛化能力。这些设计使得网络在保持实时性的同时，能够准确检测红外小目标并精确预测其轮廓。

Part.5

实验结果

图4 不同网络在不同数据集上的定量评估

图5 目标分布

图6 网络输出结果可视化：红色框表示检测到的目标区域，蓝色框表示未检测到，黄色框表示虚警，绿色框表示算法不适合检测该图像中的对象。

图7 当使用MDAF模块和基本块的主干时，我们的网络中的特征映射图。

图8 横轴表示六个mdaf模块中的第一、第二和第三层

图9 特定场景下基于CNN的方法局限性的可视化。图像上的红色框表示目标区域，“GT”表示地面真值标签。

发表于: 2025-04-282025-04-28 22:32:56
原文链接：https://page.om.qq.com/page/OiE2p_m1ekvbt1nLuZpVnDrQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

IEEE TGRS顶刊文章分享--红外目标检测

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐