YOLOv8改进：下采样系列 | 一种新颖的基于 Haar 小波的下采样HWD，有效涨点系列

原创

AI小怪兽

发布于 2024-02-02 09:20:33

2.3K00

代码可运行

文章被收录于专栏：YOLO大作战YOLO大作战

运行总次数：0

代码可运行

💡💡💡本文独家改进：HWD的核心思想是应用Haar小波变换来降低特征图的空间分辨率，同时保留尽可能多的信息，与传统的下采样方法相比，有效降低信息不确定性。

💡💡💡使用方法：代替原始网络的conv，下采样过程中尽可能包括更多信息，从而提升检测精度。

1.原理介绍

链接：https://www.sciencedirect.com/science/article/abs/pii/S0031320323005174

摘要：卷积神经网络中普遍使用最大池化或跨步卷积等下采样操作（CNN）聚合局部特征，扩大感受野，并最小化计算开销。然而，对于语义分割任务，在局部邻域上池化特征可能会导致重要空间信息的丢失，这有利于逐像素预测。为了解决这个问题，我们引入了一种简单而有效的池化操作，称为基于 Haar 小波的下采样（HWD）模块。该模块可以轻松集成到 CNN 中，以增强语义分割模型的性能。HWD的核心思想是应用Haar小波变换来降低特征图的空间分辨率，同时保留尽可能多的信息。此外，为了研究 HWD 的好处，我们提出了一种新的指标，称为特征熵指数（FEI），它衡量 CNN 中下采样后的信息不确定性程度。具体来说，FEI 可用于指示下采样方法在语义分割中保留基本信息的能力。我们的综合实验表明，所提出的 HWD 模块可以（1）有效地提高具有各种 CNN 架构的不同模态图像数据集的分割性能；(2) 与传统的下采样方法相比，有效降低信息不确定性。

图1所示。DeepLabv3+中平均池化、最大池化、跨行卷积和HWD的下采样示例[13]。与传统的降采样方法相比，HWD后的特征保留了更多的边界、纹理和细节信息，如图(d)中四个红色方块所示，其中树枝得到了更好的保存。

四种不同的池化方法

图3所示。提出的HWD模块的体系结构由两个主要块组成:无损特征编码块和特征表示学习块。注意，特征映射的通道数可以通过表示学习块来调整。

2.如何将HWD加入到YOLOv8

2.1 yolov8-HWD.yaml

# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 80  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024]  # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPs
  s: [0.33, 0.50, 1024]  # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPs
  m: [0.67, 0.75, 768]   # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPs
  l: [1.00, 1.00, 512]   # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPs
  x: [1.00, 1.25, 512]   # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs

# YOLOv8.0n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, HWD, [256]]  # 3-P3/8
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, HWD, [1024]]  # 7-P5/32
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF, [1024, 5]]  # 9

# YOLOv8.0n head
head:
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 6], 1, Concat, [1]]  # cat backbone P4
  - [-1, 3, C2f, [512]]  # 12

  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 4], 1, Concat, [1]]  # cat backbone P3
  - [-1, 3, C2f, [256]]  # 15 (P3/8-small)

  - [-1, 1, HWD, [256]]
  - [[-1, 12], 1, Concat, [1]]  # cat head P4
  - [-1, 3, C2f, [512]]  # 18 (P4/16-medium)

  - [-1, 1, HWD, [512]]
  - [[-1, 9], 1, Concat, [1]]  # cat head P5
  - [-1, 3, C2f, [1024]]  # 21 (P5/32-large)

  - [[15, 18, 21], 1, Detect, [nc]]  # Detect(P3, P4, P5)

by CSDN AI小怪兽

我正在参与2023腾讯技术创作特训营第四期有奖征文，快来和我瓜分大奖！

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

2024腾讯·技术创作特训营第五期

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

2024腾讯·技术创作特训营第五期

登录后参与评论

0 条评论

热度