前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >YOLO-TLA也来了 | 重新设计C3模块为Backbone引入轻量化注意力,诞生高效的小目标检测YOLO模型

YOLO-TLA也来了 | 重新设计C3模块为Backbone引入轻量化注意力,诞生高效的小目标检测YOLO模型

作者头像
集智书童公众号
发布2024-03-01 17:24:32
5060
发布2024-03-01 17:24:32
举报
文章被收录于专栏:集智书童集智书童

目标检测是计算机视觉的一个关键方面,其准确性和鲁棒性已经取得了显著的进步。尽管有了这些进步,实际应用仍然面临着重大的挑战,主要是对小目标的不精确检测或漏检。此外,检测模型大量的参数和计算需求限制了它们在资源有限设备上的部署。 在本文中,作者提出了YOLO-TLA,这是一个基于YOLOv5的高级目标检测模型。首先,在 Neck 网络金字塔架构中,作者增加了一个针对小目标的检测层,从而生成了一个更大尺度的特征图以区分小目标的细微特征。此外,作者将C3CrossCown模块整合到Backbone网络中。这个模块采用滑动窗口特征提取,有效减少了计算需求和参数数量,使模型更加紧凑。另外,作者还为Backbone网络引入了全局注意力机制。这种机制将通道信息与全局信息结合,创建了一个加权的特征图。这个特征图专门设计用来突出感兴趣物体的属性,同时有效地忽略不相关的细节。 与基础的YOLOv5s模型相比,作者新开发的YOLO-TLA模型在MS COCO验证数据集上显示出显著的改进,mAP@0.5提高了4.6%,mAP@0.5:0.95提高了4%,同时保持了模型尺寸紧凑,参数量为9.49M。将这些改进扩展到YOLOv5m模型,增强版本在mAP@0.5和mAP@0.5:0.95上分别提高了1.7%和1.9%,总参数量为27.53M。这些结果验证了YOLO-TLA模型在小型目标检测中的高效和有效性,实现了在较少参数和计算需求下的高精度。

1 Introduction

近年来深度学习的快速发展导致了计算机视觉各个方面的重要突破,尤其是在目标检测领域。这个计算机视觉的关键方面旨在识别和分类图像中的目标(例如,行人、动物、车辆),这对于目标追踪和目标分割等任务是一个基础性的要素。其在工业应用中非常广泛,范围从缺陷检测到自动驾驶。

此外,电子控制系统和飞机设计的演变凸显了基于无人飞行器(UAV)的目标检测的重要性,这在农业、灾害管理和航空摄影等领域变得越来越普遍。UAV可以通过无线电控制或按照预先编程的路线操作,配备高分辨率摄像头的UAV能够捕捉全面的数字图像,使用轻量级模型在飞行中进行实时目标检测。

目前,实现目标检测模型主要有两种方法:两阶段法和单阶段法。两阶段检测过程首先使用卷积神经网络(CNN)提取图像特征,然后在特征图上生成多个候选边界框(区域)。每个框再通过额外的卷积层进行目标分类和边界框细化。这包括识别目标类别并在边界框中验证其存在,以及进行回归阶段以提高检测精度。该过程以非最大值抑制(NMS)结束,它过滤掉多余的边界框以确定最自信和最准确的最终检测结果。

相比之下,单阶段检测方法直接预测图像中目标的类别及其位置,省略了候选边界框的生成。这种方法通常比两阶段方法更快,计算强度更低,使其适合于需要高实时性能的场景。

自从引入以来,YOLO系列目标检测方法在计算机视觉领域引起了广泛关注,经过几代的迭代,它在学术和工业界的性能都得到了提升。最新的检测模型YOLOv5,由Ultralytics公司提出,它提高了准确度并拥有更加简化的网络架构。尽管YOLOv5在速度和准确度之间取得了平衡,但在工业应用中仍面临特定挑战。该模型通常在准确预测小或密集物体的位置和类别方面存在困难,这会对检测性能产生负面影响。此外,将这类模型部署在通常资源有限的嵌入式系统中,需要减少参数数量和计算需求。因此,优化模型以提高资源效率同时保持准确度是一个需要解决的至关重要的问题。

在这项研究中,作者提出了YOLO-TLA模型,这是对YOLOv5的改进,旨在解决前面提到的挑战。关键改进包括在 Backbone 网络中集成注意力机制以获得更好的特征提取,以及在 Neck 网络中加强多尺度特征融合,以更准确地检测小目标。然而,这些改进可能会导致参数数量和计算需求增加。为了解决这个问题,作者提出了并评估了四种轻量级策略,以找到检测性能与模型复杂度之间的最佳平衡。所选策略随后被应用于YOLO-TLA,以确保模型既高效又有效。

本文的主要贡献如下:

  1. 在YOLOv5s模型的 Neck 网络中实现一个小型检测层,以增强其微小目标检测性能。
  2. 将C3CrossCovn模块嵌入到YOLOv5s模型的Backbone网络中,旨在通过减少模型的参数和计算需求来简化模型。
  3. 对YOLOv5s模型中的七种著名注意力机制的有效性进行对比研究。
  4. 在 Backbone 网络中的多个节点上添加全局注意力机制(GAM),增强对关键特征信息的关注,提高特征提取效率。

2 The proposed YOLO-TLA

Motivation and baseline

在这项研究中,作者提出了YOLO-TLA,一个基于YOLOv5改进的目标检测模型,重点在于小目标检测并降低模型复杂性,如图1所示。YOLOv5提出了五个版本,按照大小递增的顺序分别为YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l和YOLOv5x。每个版本都设计有特定的配置以适应不同的大小需求。

模型结构主要分为三部分: Backbone 网络、 Neck 网络和 Head 网络。 Backbone 网络基于CSPDarknet53,由标准卷积层以及额外的特征增强模块组成,负责提取物体的几何纹理特征,如形状和颜色。

为了丰富这些基本信息, Neck 网络受到FPNet和PANet的启发,进一步将 Backbone 网络的特征图与更深的语义信息相结合。这种结合使得特征图在语义和几何信息方面都更加丰富。这些增强的特征图随后被送入 Head 网络,进行最后的检测和分类。

Tiny object detection layer

在MS COCO数据集中,根据大小将目标分类:小目标小于32×32像素,中等目标的大小在32×32到96×96像素之间,而大目标超过96×96像素。为了提高作者模型中小目标的检测能力,作者调整了特征图和 Anchor 框的大小。通过使用k-means聚类算法,作者重新校准了预设 Anchor 框的大小范围,并引入了一个微小目标检测层,从而创建了YOLOv5s-Tiny模型。

具体来说,作者在YOLOv5s的 Neck 网络中进行上采样,以生成一个160×160的特征图,具有128个通道,然后将其与Backbone网络的第三层输出在通道和大小上进行合并。这个组合的特征图以及其他检测层输出,在 Head 网络中进行分类和检测处理。作者的 Neck 网络生成不同尺度上的多个特征图,每个特征图对应于各种 Anchor 框大小。这使得在较大特征图上检测小目标,在较小特征图上检测大目标,从而增强了图像中目标的表示。特征图大小与 Anchor 框大小的相关性在表1中详细描述。

Lightweight convolution module

为了减少YOLOv5模型的参数数量和计算需求,本研究探讨了两个模块的集成:C3Chost和C3CrossCovn。作者旨在评估将这些模块插入到Backbone网络的的不同位置对模型性能和复杂性的影响。这种比较关注每个模块放置如何影响模型的性能和复杂性,目的是简化网络架构而不损害其性能。

Iii-C1 C3 module revisited

C3模块是YOLOv5的一个关键组成部分,如图2所示,它由三个标准卷积层组成,每个层具有1

\times

1的核大小和步长为1,并包括几个堆叠的BottleNeck模块。

该模块的架构根据模型大小在宽度和深度上有所不同,由预定义的参数控制。C3模块采用了类似于BottleNeckCSP的残差结构。它以两种方式处理输入特征图:一种是通过双分支方法,其中一个分支使用两个标准卷积层,另一个输出原始特征图,然后连接这两个输出;另一种是省略残差路径,在标准卷积后直接输出特征图。C3中的BottleNeck模块以其强大的特征提取能力以及解决梯度消失和爆炸挑战的作用而著称。

Iii-C2 C3Ghost module

标准卷积模块,通常包括一个常规卷积层以及批量归一化和激活函数,常常会产生许多相似的特征图,这导致了高计算需求和资源消耗。为了解决这个问题,GhostCovn采用两步方法。最初,它使用较小的核大小进行标准卷积,以生成通道更少的特征图。

随后,使用深度卷积(DepConv)来生成第一步未创建的附加特征图。这两个阶段产生的特征图随后被结合,产生一个最终的 feature map,类似于标准卷积层产生的 feature map,但计算量大幅减少,参数也较少。

在作者的提出的C3Chost模块中,结合使用了GhostCovn和GhostBottleNeck模块,后者包括GhostCovn和DepConv模块,并具有残差结构。

GhostBottleNeck分为两个分支:

  1. 第一个分支涉及通过使用1
\times

1卷积核和步长为1的GhostCovn处理输入特征图,然后将生成的特征图加到原始特征图上。

  1. 第二个分支在两个GhostCovn模块之间引入了一个具有3
\times

3核和步长为2的中间DepConv模块。

残差路径遵循相似的DepConv模块,然后是一个标准的1

\times

1卷积,步长为1。C3Chost模块的整体结构与C3模块类似,但它用GhostBottleNeck替换了BottleNeckCSP模块。总体架构如图3所示。

C3CrossCovn module

尽管GhostCovn显著简化了C3模块,但它无意中导致了沿通道方向代表性信息的丢失,影响了模型的准确性。为了缓解这个问题,采用了交叉卷积(CrossCovn)。CrossCovn包括两个标准卷积层,它们以交叉模式排列在特征图上。它与传统的

k\times k

滑动窗口卷积不同,第一个层使用1

\times
k

的核,水平步长为1,垂直步长为

s

,第二个层使用

k
\times

1的核,在两个维度上的步长均为

s

。CrossCovn的示意图在图4中提供。

为了评估标准卷积与CrossCovn之间在参数数量和计算负载方面的区别,作者建立了一个比较框架。在此分析中,作者考虑一个边长为H×H×C的方形输入图像。卷积采用

k\times k

的核大小,核的数量等于通道数

C

,并在图像边缘填充

p

。等式1确定了通过标准卷积层处理所需的浮点计算需求及参数数量。

\text{FLOPs}_{1} =k^{2}C(\frac{W-k+2p}{s}+1)^{2} \tag{1}
\text{parameters}_{1} =k^{2}C

为了确定CrossCovn在单个图像操作中所需的计算需求,作者做出以下假设:CrossCovn包含

C

个双重卷积核,第一个核的大小为1

\times
k

,第二个核的大小为

k
\times

1,步长为

s

。等式2详细说明了在这些设置下CrossCovn的计算负载以及相关参数数量的具体计算。

\text{FLOPs}_{2} =k^{2}C(\frac{W-1+2p}{s}+1)(\frac{W-k+2p}{s}+1) \tag{2}
\text{parameters}_{2} =2kC

在MS COCO数据集中,所有图像均为RGB格式,因此作者使用三个图像通道(

C=3

)。为了确保足够大的感受野,作者将

k

设置为3,

s

设置为1。在这些条件下,可以看出标准卷积需要更多的计算努力,并且与CrossCovn相比,其参数数量大约是1.5倍。

尽管CrossCovn在单一特征图上包含两个条状核卷积操作,但它比标准卷积实现了更精细的特征提取和更丰富的特征信息。这种改进不仅提高了检测精度,还显著降低了计算需求和参数数量,使其成为模型轻量化的最优解决方案。C3CrossCovn模块的概述在图5中展示。

Global attention mechanism

为了解决计算机视觉中目标检测的挑战,其中目标常常位于复杂的背景和干扰物之中,作者在Backbone网络的多个位置应用了GAM。GAM帮助模型更多地关注感兴趣的目标并减少干扰,从而提高模型的准确性和鲁棒性。

传统的注意力机制,如SENet和CA,存在局限性。SE通过压缩和激励步骤获取通道相关性权重,但忽视了空间信息。CA采用位置编码,可能会过分强调位置细节,由于其缺乏全局相关性分析,可能导致过拟合。GAM主要分为两部分:通道注意力和空间注意力。这种机制同时关注通道特征和图像的全局方面,使用全局信息对输入特征图进行加权,以提高准确性和鲁棒性。

在结构上类似于CBAM,GAM依次处理通道注意力,然后是空间注意力,并融入残差结构以保留原始图像的特征信息。在通道注意力中,特征图通过一个排列操作在通道数

C

和宽度W之间进行维度交换,之后是一个带有两个全连接层和ReLU激活的多层感知器(MLP),最终使用Sigmoid激活。对于空间注意力,GAM不使用池化方法,而是采用两个带有ReLU激活的7

\times

7标准卷积。GAM的详细流程在图6中展示。

Detection pipeline

在YOLO-TLA中,为了处理不同的输入图像尺寸,数据增强期间所有检测图像都被标准化为640×640×3像素,通常是RGB图像格式。

  • Backbone 网络在不同尺度上提取特征图:320×320×64,160×160×128,80×80×256,40×40×512,以及20×20×1024。该网络的输出是一个20×20的特征图,拥有1024个通道。
  • Neck 网络采用FPN,通过融合相同尺度的特征图并逐步上采样至160×160,通道数为128,深化特征提取。 Neck 网络内的PAN进一步将特征图下采样至20×20,通道数1024,继续进行特征融合过程。 Neck 网络为检测生成四个尺度的特征图(160×160×128,80×80×256,40×40×512,以及20×20×1024)。
  • Head 网络根据这些特征图的大小选择 Anchor 框,其大小源自对训练数据集中的真实标注进行聚类,然后对物体进行分类并回归 Anchor 框,以确定它们的位置和大小。

IV Experiments

Implement Details

在这项研究进行的实验中,采用了MS COCO数据集。具体来说,使用了COCO训练集,包含118,287张图像和117,266个标签,以及包含5,000张图像和4,952个标签的COCO验证集。

考虑到这些图像的大小不一,实验中统一将它们调整为了640×640像素的大小。COCO训练集包括了广泛的物体,总共有80个物体类别,这些类别构成了日常生活中常见物体的全面集合。这使得MS COCO数据集在计算机视觉研究中具有广泛适用性和极高的价值。

在训练模型时,使用了Adam优化器,学习率从0.001开始,增加到0.01。为了提高参数更新的速度,作者将动量设置为0.937。权重衰减对于训练中的正则化至关重要,精心设置为0.0005,以避免模型过拟合或欠拟合。训练方案包括初始的 Warm up 阶段,覆盖前3个周期,然后是长达400个周期的广泛训练期。

该模型是用Python实现的,使用了PyTorch框架,并在配备了四个16GB Tesla V100 GPU的云服务器上进行训练。为了在保持结果准确性的同时加快实验过程,作者针对不同的模型大小采用了不同 Level 的数据增强。

Evaluation metrics

选择了几个公认的评价目标检测任务中模型性能的指标,包括精确度(precision)、召回率(recall)、F1分数(F1 score)和平均精度均值(mean average precision, mAP),所有这些指标都用来衡量检测的有效性。为了评估模型的复杂性,使用了参数数量和浮点运算数(FLOPs)等指标。

精确度和召回率指标源自混淆矩阵,该矩阵根据真实标签和预测标签将预测结果分为四类。当真实标签和预测都为阳性时,发生真正例(True positives, TP)。当真实标签为阳性,但预测错误地指示为阴性时,发生假阴性(False negatives, FN)。假阳性(False positives, FP)是指真实标签为阴性,但预测错误地指示为阳性的情况。最后,真阴性(True negatives, TN)是指真实标签和预测都为阴性的实例。精确度和召回率的计算方法如下,

\text{Precision} =\frac{\text{TP}}{\text{TP}+\text{FP}} \tag{3}
\text{Recall} =\frac{\text{TP}}{\text{TP}+\text{FN}}

鉴于在作者实验中使用的MS COCO数据集中目标类别的广泛范围,单独为每个类别显示精度和召回是不切实际的。因此,作者将指标作为所有类别的平均值来呈现,平均精度和召回分别由

\text{Precision}_{all}

\text{Recall}_{all}

表示。公式表达如下,

\text{Precision}_{all} =\frac{1}{n}\sum_{i=1}^{n}\text{Precision}_{i} \tag{4}
\text{Recall}_{all} =\frac{1}{n}\sum_{i=1}^{n}\text{Recall}_{i}

其中

n

表示总类别数,

i

是类别索引。

通常,精确度和召回率是成反比的,这意味着仅依赖这两个指标中的一个可能不足以充分评估检测性能。为了解决这个问题,引入了F1分数,作为一种平衡的度量。F1分数定义为精确度和召回率的调和平均值,它在计算中包含了这两个方面。计算F1分数的公式如下所示,

在目标检测中,通过将预测与真实值的IOU进行比较来评估模型的预测准确性。IOU指标衡量预测边界框B

{}_{gt}

与真实边界框B

{}_{gt}

的吻合程度。采用更高的IOU阈值表示更严格的评价标准。下面提供了计算IOU的具体公式,

\text{F1}=\frac{2\times\text{Precision}_{all}\times\text{Recall}_{all}}{ \text{Precision}_{all}+\text{Recall}_{all}} \tag{5}

请注意,公式部分按照您的要求,未进行翻译,保持原始输出。

\text{IOU}=\frac{\text{B}_{pre}\bigcap\text{B}_{gt}}{\text{B}_{pre}\bigcup \text{B}_{gt}} \tag{6}

因此,在目标检测模型中,精确度和召回率指标是从IOU值派生出来的。

在仅涉及一个类别目标的单目标检测任务中,可以用平均精度(AP)来评估模型的总体检测性能。AP是一种严格的衡量标准,它考虑了特定的IOU阈值,评估数据集中同一类别所有目标的预测准确性。

为了计算AP,需要考虑精确度和召回率,它们共同形成了一个精确度-召回率(P-R)曲线,其中x轴表示召回率,y轴表示精确度。AP的值来自于该曲线下的面积,计算方法如下,

\text{AP}=\int_{0}^{1}\text{Precision}(\text{Recall})d(\text{Recall}) \tag{7}

对于包含多种目标类别的多目标检测任务,仅依赖每个类别的AP并不能完全展现模型的有效性。因此,采用平均平均精度(mAP)作为更为全面的评价指标,它对数据集中的所有目标类别的AP值进行平均。这导致了一个更为彻底的评价,准确地反映了模型的总体性能。mAP的计算基于以下方程式

mAP=1�∑�=1�AP�

这里 � 代表数据集中的总类别数

这里

n

代表数据集中的总类别数,而

i

是每个类别的索引。在本研究中,mAP@0.5 表示在 IOU 阈值为 0.5 时计算的 mAP。此外,mAP@0.5:0.95 是从 0.5 开始,以 0.05 的增量递增至 0.95 的 IOU 阈值下计算的 mAP 值的平均数。

Evaluations on tiny object detection layer

通过在 Neck 网络中融入微小型目标检测层,YOLOv5s-Tiny在表2中详细描述的几个指标上超越了 Baseline YOLOv5s。

这项改进使得Precision

{}_{all}

提高了1%,Recall

{}_{all}

提高了2.2%,mAP@0.50提高了1.8%,mAP@0.5:0.95提高了1.4%。然而,这也导致了更高的计算和参数需求,这可能是由于 Neck 网络中增加的卷积模块产生了更大的特征图。

为了突出所提出的小目标检测层的有效性,作者使用了YOLOv5s和YOLOv5s-Tiny模型的结果图像以及 Head 网络热力图。图7展示了(a)原始图像,(b)YOLOv5s的推理结果,以及(c)YOLOv5s-Tiny的推理结果,表明YOLOv5s-Tiny在小目标检测方面具有更优越的能力。

图8展示了来自YOLOv5s Neck 网络的三个特征热力图,分别对应于大、中、小目标的检测层,而图9则说明了来自YOLOv5s-Tiny的相应层,包括小目标检测层。值得注意的是,图9(c)和9(d)揭示了YOLOv5s-Tiny中的小目标检测层对小目标提供了更详细的关注。

Evaluations on lightweight convolution modules

在本研究中,提出了四种减轻YOLOv5模型的方法。第一种方法称为YOLOv5s-G1,用C3Ghost模块替换了Backbone中的C3模块。第二种方法,YOLOv5s-G2,将网络中的所有C3模块换成了C3Ghost模块。第三种方法,YOLOv5s-CC1,将Backbone中的C3模块换成了C3CrossCvn模块。为了避免混淆,将所有网络C3模块替换为C3CrossCvn模块的第四种方法命名为YOLOv5s-CC2。这四种模型的实验结果汇总于表3中。

四个轻量级改进模型,特别是YOLOv5s-G1和YOLOv5s-G2,相较于基准的YOLOv5模型,在参数和计算需求上有所减少。然而,YOLOv5s-G1和YOLOv5s-G2在检测精度上也出现了显著的下降。这种下降归因于两个问题:特征图拼接导致的通道特征丢失,以及GhostCvn变化感受野导致的表现能力减弱。

好消息是,YOLOv5s-CC1模型不仅将参数数量减少了0.2M,计算复杂度减少了0.4GFLOPs,还提高了准确度,mAP@0.50提高了1.9%,mAP@0.5:0.95提高了1.6%。这些结果证明了C3CrossCvn模块在增强Backbone网络特征提取方面的有效性,尽管它在颈网络中的多尺度特征融合上提出了挑战,并且由于模型参数和复杂度的整体减少而影响了精度。

Evaluations on different attention mechanisms

YOLO-TLA在其 Backbone 网络中采用了GAM,并将其与其他流行的注意力机制如CA、CBAM和ECA对检测性能的影响进行了比较。如表4所示,每种注意力机制都以不同的程度提高了YOLOv5s的各种检测指标。尽管SKNet使YOLOv5s模型的mAP@0.50提高了4.5%,mAP@0.5:0.95提高了4%,但这是以模型参数和复杂度增加近五倍为代价的,这与本研究追求轻量级的目标相冲突。

相反,集成了GAM的YOLOv5s模型在mAP@0.50上提高了3.5%,在mAP@0.5:0.95上提高了3.3%,对模型大小和复杂度的影响最小。因此,在所测试的注意力机制中,GAM在提高检测精度而不过度增加模型大小方面最为有效,保持了最佳平衡。这些注意力机制对YOLOv5s的相对影响在图10中通过mAP@0.50、mAP@0.5:0.95、参数数量和计算复杂度等指标进行了可视化展示。

Discussions

为了说明每种增强措施对模型性能的影响,本节选择了每个类别中最有效的改进方法。具体来说,YOLOv5s-TL在基于YOLOv5s-CC1模型的基础上,增加了微小目标层和轻量级改进。YOLOv5s-TA结合了微小目标检测层与GAM,但保留了标准的C3模块。最后,YOLO-TLAs,即本文提出的模型,集成了微小目标检测层、轻量级C3CrossCovn模块和GAM。这些不同修改的结果在表5中详细给出。

与YOLOv5s-Tiny相比,YOLOv5s-TL在mAP@0.50上提高了0.6%,在mAP@0.5:0.95上提高了0.5%,同时参数减少了0.19M。YOLOv5s-TA相比于YOLOv5s-Tiny,在mAP@0.50上高出2.1%,在mAP@0.5:0.95上高出2.2%。相对于YOLOv5s-TA,YOLO-TLAs减少了0.21M的参数和0.2GFLOPs的计算需求,同时在mAP@0.50上提高了0.7%,在mAP@0.5:0.95上提高了0.4%。

这些结果表明,轻量化方法不仅降低了模型复杂度,还提高了检测性能。虽然准确度的提升通常会导致计算和参数要求的增加,但这里实施的轻量化策略有效地限制了这些增加。实验结果验证了每个提出的改进对YOLOv5s模型性能的增强都有积极贡献,并确认这些改进不是相互排斥的,而是互补的。

YOLO-TLAs在YOLOv5s的基础上展示了显著性能提升,mAP@0.50提高了4.6%,mAP@0.5:0.95提高了4%,而参数量仅增加了2.26M。将同样的改进方法应用于更大的YOLOv5m模型,产生了YOLO-TLAm模型。与YOLOv5m相比,这个模型显示了显著的增益,mAP@0.50提高了1.7%,mAP@0.5:0.95提高了1.9%,但代价是增加了额外的6.36M参数。YOLOv5通过修改网络尺寸来调整模型大小,特别是通过改变模块的重复次数。

像YOLO-TLAm这样的大型模型通常与相似大小的YOLOv5模型相比,参数量和计算量有更大幅度的增加,而准确度的提升并不相应地显著。表6展示了不同YOLO-TLA模型与它们的YOLOv5等效模型之间的性能比较。

为了展示YOLO-TLA方法的有效性,作者将它与YOLOv5进行了比较,所使用的三张测试图像是从不同验证集中随机选取的,其特点为含有密集分布且大小均匀的物体。

图11显示,YOLO-TLA在检测小目标方面优于YOLOv5s,而YOLO-TLAm则比YOLOv5m展现出更为全面的检测能力。总体而言,YOLO-TLA展现了更高的检测准确性和鲁棒性。

Comparison with state-of-the-arts

表7详细比较了YOLO-TLAs与其他最先进的检测方法。YOLO-TLAs在mAP@0.5:0.95上比YOLOx-s提高了0.3%,同时在计算需求上减少了1.5GFLOPs,但参数增加了0.49M。YOLO-TLAm也比其对应的YOLOx-m表现更好,mAP@0.5:0.95提高了0.4%,计算量减少了0.7GFLOPs。

此外,YOLO-TLAs在mAP@0.5:0.95上显著优于EfficientDet-D1,提高了7.5%。虽然EfficientDet-D1的网络架构轻便,但其简单性导致了与准确度之间的权衡。

V Conclusion

本研究解决了目标检测领域中普遍存在的挑战,并引入了一种新颖的方法,即YOLO-TLA。该方法与基准的YOLOv5相比,展示了更优越的检测性能,特别是在准确识别小目标方面。YOLO-TLA通过在其 Neck 网络中集成一个微小目标检测层,并融入全局注意力机制以提高准确度,从而增强了YOLOv5的性能。

为了在提高检测能力的同时保持模型的效率,采用了一种轻量级策略,即在Backbone网络中合并C3CrossCovn模块以降低模型复杂性。这种策略不仅降低了复杂性,还提高了准确性,这一点通过实验结果得到了证实。

此外,作者还成功将这些改进应用于更大的YOLOv5m模型,创建了YOLO-TLAm模型,它在准确性和稳定性方面均优于YOLOv5m。结果表明,所提出的改进同样适用于大型模型。

参考

[1].YOLO-TLA: An Efficient and Lightweight Small Object Detection Model based on YOLOv5.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-02-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 集智书童 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 The proposed YOLO-TLA
    • Motivation and baseline
      • Tiny object detection layer
        • Lightweight convolution module
          • Iii-C1 C3 module revisited
          • Iii-C2 C3Ghost module
          • C3CrossCovn module
        • Global attention mechanism
          • Detection pipeline
          • IV Experiments
            • Implement Details
              • Evaluation metrics
                • Evaluations on tiny object detection layer
                  • Evaluations on lightweight convolution modules
                    • Evaluations on different attention mechanisms
                      • Discussions
                        • Comparison with state-of-the-arts
                        • V Conclusion
                        • 参考
                        领券
                        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档