首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >YOLOv8独家原创改进:SPPF自研创新 | SPPF与感知大内核卷积UniRepLK结合,大kernel+非膨胀卷积提升感受野

YOLOv8独家原创改进:SPPF自研创新 | SPPF与感知大内核卷积UniRepLK结合,大kernel+非膨胀卷积提升感受野

原创
作者头像
AI小怪兽
发布于 2023-12-10 02:44:22
发布于 2023-12-10 02:44:22
8.4K00
代码可运行
举报
文章被收录于专栏:YOLO大作战YOLO大作战
运行总次数:0
代码可运行

💡💡💡本文自研创新改进:SPPF与感知大内核卷积UniRepLK结合,大kernel+非膨胀卷积,使SPPF增加大kernel,提升感受野,最终提升检测精度

1.SPP &SPPF介绍

YOLOv5最初采用SPP结构在v6.0版本(repo)后开始使用SPPF,主要目的是融合更大尺度(全局)信息 YOLOV8使用SPPF 作者对SPP和SPPF进行了比较,SPPF在不影响mAP的情况下可以获得更快的速度和更少的FLOPs

左边是SPP,右边是SPPF。

2.改进原理介绍

论文:https://arxiv.org/pdf/2311.15599.pdf

摘要:大内核卷积神经网络(ConvNet)最近受到了广泛的研究关注,但有两个未解决的关键问题需要进一步研究。1)现有大内核ConvNet的架构很大程度上遵循传统ConvNet或Transformer的设计原则,而大内核ConvNet的架构设计仍然没有得到解决。2)由于 Transformer 已经主导了多种模态,ConvNet 是否在视觉以外的领域也具有强大的通用感知能力还有待研究。在本文中,我们从两个方面做出贡献。1)我们提出了设计大内核ConvNet的四个架构指南,其核心是利用大内核区别于小内核的本质特征——看得宽而不深入。遵循这些准则,我们提出的大内核 ConvNet 在图像识别方面表现出了领先的性能。例如,我们的模型实现了 88.0% 的 ImageNet 准确率、55.6% 的 ADE20K mIoU 和 56.4% 的 COCO box AP,表现出比最近提出的一些强大竞争对手更好的性能和更高的速度。2)我们发现,大内核是在 ConvNet 原本不擅长的领域发挥卓越性能的关键。通过某些与模态相关的预处理方法,即使没有对架构进行模态特定的定制,所提出的模型也能在时间序列预测和音频识别任务上实现最先进的性能。

3.SPPF创新原理框架图

将UniRepLKNetBlock和SPPF高效结合,进行创新

3.1 SPPF创新加入YOLOv8

3.1.1 UniRepLKNet_SPPF加入ultralytics/nn/sppf/UniRepLKNet_SPPF.py

核心代码:

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
class UniRepLKNetBlock(nn.Module):

    def __init__(self,
                 dim,
                 kernel_size,
                 drop_path=0.,
                 layer_scale_init_value=1e-6,
                 deploy=False,
                 attempt_use_lk_impl=True,
                 with_cp=False,
                 use_sync_bn=False,
                 ffn_factor=4):
        super().__init__()
        self.with_cp = with_cp
        # if deploy:
        #     print('------------------------------- Note: deploy mode')
        # if self.with_cp:
        #     print('****** note with_cp = True, reduce memory consumption but may slow down training ******')

        self.need_contiguous = (not deploy) or kernel_size >= 7

        if kernel_size == 0:
            self.dwconv = nn.Identity()
            self.norm = nn.Identity()
        elif deploy:
            self.dwconv = get_conv2d(dim, dim, kernel_size=kernel_size, stride=1, padding=kernel_size // 2,
                                     dilation=1, groups=dim, bias=True,
                                     attempt_use_lk_impl=attempt_use_lk_impl)
            self.norm = nn.Identity()
        elif kernel_size >= 7:
            self.dwconv = DilatedReparamBlock(dim, kernel_size, deploy=deploy,
                                              use_sync_bn=use_sync_bn,
                                              attempt_use_lk_impl=attempt_use_lk_impl)
            self.norm = get_bn(dim, use_sync_bn=use_sync_bn)
        elif kernel_size == 1:
            self.dwconv = nn.Conv2d(dim, dim, kernel_size=kernel_size, stride=1, padding=kernel_size // 2,
                                    dilation=1, groups=1, bias=deploy)
            self.norm = get_bn(dim, use_sync_bn=use_sync_bn)
        else:
            assert kernel_size in [3, 5]
            self.dwconv = nn.Conv2d(dim, dim, kernel_size=kernel_size, stride=1, padding=kernel_size // 2,
                                    dilation=1, groups=dim, bias=deploy)
            self.norm = get_bn(dim, use_sync_bn=use_sync_bn)

        self.se = SEBlock(dim, dim // 4)

        ffn_dim = int(ffn_factor * dim)
        self.pwconv1 = nn.Sequential(
            NCHWtoNHWC(),
            nn.Linear(dim, ffn_dim))
        self.act = nn.Sequential(
            nn.GELU(),
            GRNwithNHWC(ffn_dim, use_bias=not deploy))
        if deploy:
            self.pwconv2 = nn.Sequential(
                nn.Linear(ffn_dim, dim),
                NHWCtoNCHW())
        else:
            self.pwconv2 = nn.Sequential(
                nn.Linear(ffn_dim, dim, bias=False),
                NHWCtoNCHW(),
                get_bn(dim, use_sync_bn=use_sync_bn))

        self.gamma = nn.Parameter(layer_scale_init_value * torch.ones(dim),
                                  requires_grad=True) if (not deploy) and layer_scale_init_value is not None \
                                                         and layer_scale_init_value > 0 else None
        self.drop_path = DropPath(drop_path) if drop_path > 0. else nn.Identity()

    def forward(self, inputs):

        def _f(x):
            if self.need_contiguous:
                x = x.contiguous()
            y = self.se(self.norm(self.dwconv(x)))
            y = self.pwconv2(self.act(self.pwconv1(y)))
            if self.gamma is not None:
                y = self.gamma.view(1, -1, 1, 1) * y
            return self.drop_path(y) + x

        if self.with_cp and inputs.requires_grad:
            return checkpoint.checkpoint(_f, inputs)
        else:
            return _f(inputs)

    def reparameterize(self):
        if hasattr(self.dwconv, 'merge_dilated_branches'):
            self.dwconv.merge_dilated_branches()
        if hasattr(self.norm, 'running_var') and hasattr(self.dwconv, 'lk_origin'):
            std = (self.norm.running_var + self.norm.eps).sqrt()
            self.dwconv.lk_origin.weight.data *= (self.norm.weight / std).view(-1, 1, 1, 1)
            self.dwconv.lk_origin.bias.data = self.norm.bias + (self.dwconv.lk_origin.bias - self.norm.running_mean) * self.norm.weight / std
            self.norm = nn.Identity()
        if self.gamma is not None:
            final_scale = self.gamma.data
            self.gamma = None
        else:
            final_scale = 1
        if self.act[1].use_bias and len(self.pwconv2) == 3:
            grn_bias = self.act[1].beta.data
            self.act[1].__delattr__('beta')
            self.act[1].use_bias = False
            linear = self.pwconv2[0]
            grn_bias_projected_bias = (linear.weight.data @ grn_bias.view(-1, 1)).squeeze()
            bn = self.pwconv2[2]
            std = (bn.running_var + bn.eps).sqrt()
            new_linear = nn.Linear(linear.in_features, linear.out_features, bias=True)
            new_linear.weight.data = linear.weight * (bn.weight / std * final_scale).view(-1, 1)
            linear_bias = 0 if linear.bias is None else linear.bias.data
            linear_bias += grn_bias_projected_bias
            new_linear.bias.data = (bn.bias + (linear_bias - bn.running_mean) * bn.weight / std) * final_scale
            self.pwconv2 = nn.Sequential(new_linear, self.pwconv2[1])

class SPPF_UniRepLK(nn.Module):
    """Spatial Pyramid Pooling - Fast (SPPF) layer for YOLOv5 by Glenn Jocher."""

    def __init__(self, c1, c2, k=5):  # equivalent to SPP(k=(5, 9, 13))
        super().__init__()
        c_ = c1 // 2  # hidden channels
        self.cv1 = Conv(c1, c_, 1, 1)
        self.cv2 = Conv(c_ * 4, c2, 1, 1)
        self.m = nn.MaxPool2d(kernel_size=k, stride=1, padding=k // 2)
        self.UniRepLK = UniRepLKNetBlock(c_ * 4, kernel_size=k)

    def forward(self, x):
        """Forward pass through Ghost Convolution block."""
        x = self.cv1(x)
        y1 = self.m(x)
        y2 = self.m(y1)
        return self.cv2(self.UniRepLK(torch.cat((x, y1, y2, self.m(y2)), 1)))

3.1.2 yolov8_SPPF_UniRepLK.yaml

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
# Ultralytics YOLO 🚀, AGPL-3.0 license
# YOLOv8 object detection model with P3-P5 outputs. For Usage examples see https://docs.ultralytics.com/tasks/detect

# Parameters
nc: 80  # number of classes
scales: # model compound scaling constants, i.e. 'model=yolov8n.yaml' will call yolov8.yaml with scale 'n'
  # [depth, width, max_channels]
  n: [0.33, 0.25, 1024]  # YOLOv8n summary: 225 layers,  3157200 parameters,  3157184 gradients,   8.9 GFLOPs
  s: [0.33, 0.50, 1024]  # YOLOv8s summary: 225 layers, 11166560 parameters, 11166544 gradients,  28.8 GFLOPs
  m: [0.67, 0.75, 768]   # YOLOv8m summary: 295 layers, 25902640 parameters, 25902624 gradients,  79.3 GFLOPs
  l: [1.00, 1.00, 512]   # YOLOv8l summary: 365 layers, 43691520 parameters, 43691504 gradients, 165.7 GFLOPs
  x: [1.00, 1.25, 512]   # YOLOv8x summary: 365 layers, 68229648 parameters, 68229632 gradients, 258.5 GFLOPs

# YOLOv8.0n backbone
backbone:
  # [from, repeats, module, args]
  - [-1, 1, Conv, [64, 3, 2]]  # 0-P1/2
  - [-1, 1, Conv, [128, 3, 2]]  # 1-P2/4
  - [-1, 3, C2f, [128, True]]
  - [-1, 1, Conv, [256, 3, 2]]  # 3-P3/8
  - [-1, 6, C2f, [256, True]]
  - [-1, 1, Conv, [512, 3, 2]]  # 5-P4/16
  - [-1, 6, C2f, [512, True]]
  - [-1, 1, Conv, [1024, 3, 2]]  # 7-P5/32
  - [-1, 3, C2f, [1024, True]]
  - [-1, 1, SPPF_UniRepLK, [1024, 5]]  # 9

# YOLOv8.0n head
head:
  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 6], 1, Concat, [1]]  # cat backbone P4
  - [-1, 3, C2f, [512]]  # 12

  - [-1, 1, nn.Upsample, [None, 2, 'nearest']]
  - [[-1, 4], 1, Concat, [1]]  # cat backbone P3
  - [-1, 3, C2f, [256]]  # 15 (P3/8-small)

  - [-1, 1, Conv, [256, 3, 2]]
  - [[-1, 12], 1, Concat, [1]]  # cat head P4
  - [-1, 3, C2f, [512]]  # 18 (P4/16-medium)

  - [-1, 1, Conv, [512, 3, 2]]
  - [[-1, 9], 1, Concat, [1]]  # cat head P5
  - [-1, 3, C2f, [1024]]  # 21 (P5/32-large)

  - [[15, 18, 21], 1, Detect, [nc]]  # Detect(P3, P4, P5)

详见:https://blog.csdn.net/m0_63774211/category_12511737.html

by CSDN AI小怪兽

我正在参与2023腾讯技术创作特训营第四期有奖征文,快来和我瓜分大奖!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MongoDB的文档(二)
MongoDB中查询文档非常方便,可以使用集合对象的find()方法。例如,要查询名为mycollection的集合中所有文档,可以使用以下命令:
堕落飞鸟
2023/05/09
8600
【详解】MongoDB基本用法
MongoDB 是一个基于分布式文件存储的开源数据库系统。它是一个NoSQL数据库,支持文档存储模式,非常适合处理大量数据的高性能应用。本文将介绍MongoDB的基本安装、启动、连接以及一些常用操作命令。
大盘鸡拌面
2025/07/19
1100
MongoDB数据的插入、查询、更新和删除
在MongoDB中,我们可以使用CRUD(Create、Read、Update、Delete)操作来插入、查询、更新和删除数据。这些操作都是通过MongoDB shell或编程语言驱动程序(如Python、Java、Node.js等)来执行的。
玖叁叁
2023/04/13
2.8K0
MongoDB快速入门实践指南
MongoDB 是一款基于分布式文件存储的开源数据库系统,专为处理大规模数据而设计,提供了高性能、高可用性和自动扩展的能力。以下是针对初学者的MongoDB快速入门实践指南。
Towserliu
2024/08/19
2240
MongoDB快速入门实践指南
【翻译】MongoDB指南/CRUD操作(二)
【原文地址】https://docs.mongodb.com/manual/ MongoDB CRUD操作(二) 主要内容: 更新文档,删除文档,批量写操作,SQL与MongoDB映射图,读隔离(读关注),写确认(写关注) 1 更新文档 1.1 更新 MongoDB提供下列方法用于更新一个集合 db.collection.updateOne() 更新使用指定过滤器匹配到的文档,即使过滤器匹配到多个文档,也只会更新一个文档。 3.2版本新增特性。 db.collection.upda
甜橙很酸
2018/03/08
2.6K0
.NET Core MongoDB的简单使用
使用之前文章提到的MongoDB Compass用法分别添加数据库[myDb]和集合(表)[userinfos]信息,
GoodTime
2024/03/05
4140
.NET Core MongoDB的简单使用
MongoDB的CRUD操作(四)
在MongoDB中,我们可以使用updateOne()和updateMany()方法来更新文档。
堕落飞鸟
2023/05/09
4090
MongoDB Document CRUD Operations
通过在find方法中传入Query Filter Documents,Query Filter Documents可以完成对特定记录的读取、更新和删除操作,格式如下:
shysh95
2024/06/14
3560
MongoDB Document CRUD Operations
mongodb学习(一)
通过 MongoDB Shell(mongosh)是用于与 MongoDB 交互的命令行界面
落幕
2025/05/27
1910
mongodb学习(一)
MongoDB 安装及文档的基本操作
MongoDB 是一个基于分布式文件存储的半结构化的非关系型数据库。在海量数据中,可以较高性能的处理存取操作。它是以 BSON 格式进行数据存储(类似 JSON 格式,但类型更为丰富),因此对于复杂的数据类型,可以较轻松的保存和处理。同时,在非关系型数据库阵容中,相比其他数据库产品,它拥有更丰富的功能,并且与关系型数据库类型,所以对于新手使用也能快速上手。
ytao
2020/06/04
1.5K0
MongoDB 安装及文档的基本操作
【数据库】MongoDB深度解析与Python操作指南:从安装到实战操作全覆盖
MongoDB 是一种开源的、面向文档的 NoSQL 数据库,由 MongoDB Inc. 开发和维护。它与传统的关系型数据库(如 MySQL、PostgreSQL)不同,使用 JSON 风格的 BSON(二进制 JSON)数据格式来存储数据,因此数据的格式更加灵活、易于扩展。由于其强大的扩展性、分布式结构和高效的查询能力,MongoDB 成为了现代大数据应用和云计算环境中常用的数据库之一。
易辰君
2024/11/07
5140
如何使用 Node.js 连接和操作 MongoDB 数据库?
Node.js 是一种基于 JavaScript 的服务器端编程语言,而 MongoDB 是一个流行的 NoSQL 数据库。Node.js 可以与 MongoDB 集成,从而创建强大的 Web 应用程序。本文将详细介绍如何使用 Node.js 连接和操作 MongoDB 数据库。
网络技术联盟站
2023/07/06
2.3K0
从青铜到黄金,对着mysql学,一文搞定mongoDB
项目中使用的技术五花八门,接触了很多新技术,之前也没用过mongo,今天恶补一下基础的知识,开始吧。
香菜聊游戏
2021/09/08
8430
从青铜到黄金,对着mysql学,一文搞定mongoDB
文档型数据库MongoDB的安装与入门操作
MongoDB作为NoSql数据库中的典型代表,在分布式项目中广泛应用于存储格式灵活的JSON类型数据。在笔者的上一篇文章重点推荐一个基于SpringCloud的电商微服务项目mall-swarm的微服务项目中也用到了MongoDB, 因此为了深入学习这个微服务项目,咱们有必要对MongoDB有个入门的学习。至少得在自己的电脑或者服务器上安装好MongoDB服务,并学会一些基本的CRUD操作。本文笔者就来领大家学会Windows和Linux环境下安装最新稳定版本的MongDB 6.0.2版本服务,并使用学会一些基本的CRUD shell命令操作。
用户3587585
2022/11/29
4.4K0
文档型数据库MongoDB的安装与入门操作
mongodb系列(2)-基本的CURD的使用
MongoDB在插入一条数据后,会自动增加一个_id自动,作为主键,如果插入的文档省略了id字段,则会自动生产一个Object_id字段
爽朗地狮子
2022/10/21
6190
MongoDB系列---集合与文档操作03
  上一篇我们讲述了如何对MongoDB的权限和用户进行日常的基本操作,来达到我们对数据库的基本安全保障。
Arebirth
2020/06/19
1.5K0
零基础学习MongoDB(五)—— 文档CRUD操作
语法格式:db.COLLECTION_NAME.insertOne(document)
小丞同学
2021/08/16
1.4K0
day120-day121-MongoDB的基础增删改查&pymongo的使用
1.MongoDB与MySQL的对比 # 与MySQL的对比 MySQL MongoDB DB DB table Collections # 表 row Documents # 行<单条数据> column Field # 字段 2.MongoDB支持的字段数据类型 # 支持的数据类型 String # 字符串,必须是utf-8 Boolean # 布尔值,true 或者 false (这里有坑哦~在我们大Python中 Tr
少年包青菜
2020/04/27
3.3K0
MongoDB入门
MongoDB 是一个跨平台的,面向文档的数据库,是当前 NoSQL 数据库产品中最热门的一种。它介于关系数据库和非关系数据库之间,是非关系数据库当中功能最丰富,最像关系数据库的产品。它支持的数据结构非常松散,是类似JSON 的 BSON 格式,因此可以存储比较复杂的数据类型。
HUC思梦
2020/09/03
2.8K0
MongoDB入门
MongoDB快速入门指南与docker-compose快体验
MongoDB相对于RDBMS的优势 模式少 -MongoDB是一个文档数据库,其中一个集合包含不同的文档。一个文档之间的字段数,内容和文档大小可能会有所不同。 单个对象的结构清晰。 没有复杂的联接。 深入的查询能力。MongoDB支持使用与SQL几乎一样强大的基于文档的查询语言对文档进行动态查询。 sql Tuning(优化) 易于扩展 不需要将应用程序对象转换/映射到数据库对象。 使用内部存储器存储(窗口式)工作集,从而可以更快地访问数据 RDBMS:关系数据库管理系统 为什么要使用MongoDB 面
拾荒者的笔记
2020/05/14
1.5K0
相关推荐
MongoDB的文档(二)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档