基于YOLOv5的红外小目标性能提升，多种网络结构组合DCNV3、CARAFE、多头检测器等

原创

AI小怪兽

发布于 2023-12-18 13:57:30

8430

发布于 2023-12-18 13:57:30

文章被收录于专栏：YOLO大作战

1.数据集介绍

红外小目标检测的目标比较小，目标极其容易和其他物体混淆，有一定的挑战性。

另外，这本质上也是一个小目标领域的问题，很多适用于小目标的创新点也会被借鉴进来。

红外小目标检测，数据集大小513张

2.DCNV3介绍

不同于近来聚焦于大核的CNN方案，InternImage以形变卷积作为核心操作(不仅具有下游任务所需的有效感受野，同时具有输入与任务自适应空域聚合能力)。所提方案降低了传统CNN的严格归纳偏置，同时可以学习更强更鲁棒的表达能力。ImageNet、COCO以及ADE20K等任务上的实验验证了所提方案的有效性，值得一提的是：InternImage-H在COCO test-dev上取得了新的记录65.4mAP。

InternImage通过重新设计算子和模型结构提升了卷积模型的可扩展性并且缓解了归纳偏置，包括（1）DCNv3算子，基于DCNv2算子引入共享投射权重、多组机制和采样点调制。

（2）基础模块，融合先进模块作为模型构建的基本模块单元

（3）模块堆叠规则，扩展模型时规范化模型的宽度、深度、组数等超参数。

3.CARAFE介绍

本文尝试提出一个新的上采样操作CARAFE，它应该具有以下特点：

感受野大。不同于以往只利用亚像素邻域的工作(如双线性插值)，CARAFE可以在一个大的接收域中聚合上下文信息。内容感知。CARAFE不是为所有的样本使用一个固定的内核(例如反卷积)，而是支持特定于实例的内容感知处理，它可以动态地生成自适应的内核。轻量级、计算速度快。CARAFE引入了很少的计算开销，可以很容易地集成到现有的网络架构中

4.yolov5s_C3_DCNV3+CARAFE.yaml

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 1 # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple
anchors:

  - [5,6, 8,14, 15,11]
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 6, C3, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 3, C3, [1024]],
   [-1, 1, SPPF, [1024, 5]],  # 9
  ]

# YOLOv5 v6.0 head
head:
  [ [-1,1,C3_DCNV3,[1024,True,16]], #10
    [6,1,C3_DCNV3,[512,True,8]],  #11
    [4,1,C3_DCNV3,[256,True,4]],  #12
    [2,1,C3_DCNV3,[128,True,2]],  #13
    
    
  [10, 1, Conv, [512, 1, 1]],   
   [-1, 1, CARAFE,[3,5]],
   [[-1, 11], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 13


   [-1, 1, Conv, [512, 1, 1]], #40*40 14
   [-1, 1, CARAFE,[3,5]],
   [[-1, 12], 1, Concat, [1]],  # cat backbone P3   80*80
   [-1, 3, C3, [512, False]],  # 17 (P3/8-small)  80*80

   [-1, 1, Conv, [256, 1, 1]],
   [-1, 1, CARAFE,[3,5]],
   [[-1, 13], 1, Concat, [1]],  # cat backbone P3
   [-1, 3, C3, [256, False]],  # 17 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 22], 1, Concat, [1]],  # cat head P4
   [-1, 3, C3, [256, False]],  # 20 (P4/16-medium)24

   [-1, 1, Conv, [256, 3, 2]],
   [[-1, 18], 1, Concat, [1]],  # cat head P4
   [-1, 3, C3, [512, False]],  # 20 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],
   [[-1, 14], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 23 (P5/32-large)

   [[25, 29, 31,34], 1, Detect, [nc, anchors]],   # Detect(P3, P4, P5)
  ]

4.1 yolov5s_SmallObject.yaml

# YOLOv5 🚀 by Ultralytics, GPL-3.0 license

# Parameters
nc: 1  # number of classes
depth_multiple: 0.33  # model depth multiple
width_multiple: 0.50  # layer channel multiple
anchors:
  - [4,5, 8,10, 22,18] # P2/4
  - [10,13, 16,30, 33,23]  # P3/8
  - [30,61, 62,45, 59,119]  # P4/16
  - [116,90, 156,198, 373,326]  # P5/32

# YOLOv5 v6.0 backbone
backbone:
  # [from, number, module, args]
  [[-1, 1, Conv, [64, 6, 2, 2]],  # 0-P1/2
   [-1, 1, Conv, [128, 3, 2]],  # 1-P2/4
   [-1, 3, C3, [128]],
   [-1, 1, Conv, [256, 3, 2]],  # 3-P3/8
   [-1, 6, C3, [256]],
   [-1, 1, Conv, [512, 3, 2]],  # 5-P4/16
   [-1, 9, C3, [512]],
   [-1, 1, Conv, [1024, 3, 2]],  # 7-P5/32
   [-1, 3, C3, [1024]],
   [-1, 1, SPPF, [1024, 5]],  # 9
  ]

# YOLOv5 v6.0 head
head:
  [[-1, 1, Conv, [512, 1, 1]],
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],
   [[-1, 6], 1, Concat, [1]],  # cat backbone P4
   [-1, 3, C3, [512, False]],  # 13

   [-1, 1, Conv, [256, 1, 1]],   # 14
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],  # 15
   [[-1, 4], 1, Concat, [1]],  # cat backbone P3  16

   # add feature extration layer
   [-1, 3, C3, [256, False]],  # 17
   [-1, 1, Conv, [128, 1, 1]], # 18
   [-1, 1, nn.Upsample, [None, 2, 'nearest']],  # 19
   [[-1, 2], 1, Concat, [1]],  # cat backbone P3

   # add detect layer
   [-1, 3, C3, [128, False]],  # 21 (P4/4-minium)

   [-1, 1, Conv, [128, 3, 2]], # 22
   [[-1, 18], 1, Concat, [1]],  # cat head P3
   # end

   [-1, 3, C3, [256, False]],  # 24 (P3/8-small)

   [-1, 1, Conv, [256, 3, 2]],  # 25
   [[-1, 14], 1, Concat, [1]],  # cat head P4
   [-1, 3, C3, [512, False]],  # 27 (P4/16-medium)

   [-1, 1, Conv, [512, 3, 2]],  # 28
   [[-1, 10], 1, Concat, [1]],  # cat head P5
   [-1, 3, C3, [1024, False]],  # 30 (P5/32-large)

   [[21, 24, 27, 30], 1, Detect, [nc, anchors]],  # Detect(P2, P3, P4, P5)
  ]

by CSDN AI小怪兽

https://blog.csdn.net/m0_63774211/article/details/130881380

我正在参与2023腾讯技术创作特训营第四期有奖征文，快来和我瓜分大奖！

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

2023腾讯·技术创作特训营第四期

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

2023腾讯·技术创作特训营第四期

登录后参与评论

0 条评论

热度