前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >视觉变换器( Vision Transformers)的局部和全局注意交互统一建模 !

视觉变换器( Vision Transformers)的局部和全局注意交互统一建模 !

作者头像
未来先知
发布2025-02-08 14:05:06
发布2025-02-08 14:05:06
1240
举报
文章被收录于专栏:未来先知

作者提出了一种新颖的方法,该方法扩展了视觉Transformer(ViT)的自注意力机制,以实现更准确的多数据集目标检测。 ViT在图像理解任务,如目标检测、分割和分类中表现出强大的能力。这主要归功于它们能够利用视觉 Token 之间的交互来获取全局信息。然而,ViT中的自注意力机制存在局限性,因为它们不允许视觉 Token 在计算全局注意力之前与相邻特征交换局部或全局信息。 这是有问题的,因为在关注(匹配)其他 Token 时, Token 被视为孤立,并且忽略了有价值的空间关系。这种孤立通过点积相似性操作进一步加剧,使得不同语义类别的 Token 在视觉上看起来相似。 为了解决这些局限性,作者对传统的自注意力框架进行了两项改进;一种新颖的激进卷积池化策略,用于局部特征混合,以及一种新的概念注意力变换,以促进语义概念之间的交互和特征交换。 实验结果表明,在自注意力之前进行局部和全局视觉特征的信息交换,显著提高了在具有挑战性的目标检测任务上的性能,并且能够推广到多个基准数据集和具有挑战性的医学数据集。 作者发布了源代码和一个新的癌症肿瘤数据集(嵌合细胞簇)。

引言

近年来,一些目标检测模型能够在不同的数据集上捕捉到稳健、具有代表性的高级语义特征,从而实现了对物体的高精度定位和分类。这些架构包含了基于学习的视觉特征编码器,这对于感知目标检测至关重要,即识别和解释视觉信息以识别物体的过程。Transformer架构是这些模型中的佼佼者,在多个目标检测基准测试中取得了最先进的结果。Transformer编码器在目标检测中取得成功的其中一个原因是它们能够通过注意力机制来建模视觉元素之间的长距离依赖关系。这种能力使它们非常适合视觉检测任务,在这些任务中,理解不同尺度范围内的空间关系是至关重要的。

尽管 Transformer 自注意力机制在最近取得了成功并被广泛采用,但在处理不同语义目标具有视觉相似外观的复杂数据集时,它存在固有的局限性。例如,组织扫描中的癌症肿瘤或脑部MRI图像中的肿瘤的医疗数据集就是其中之一。来自不同类别的目标的 Query 、 Key和Value 可能变得难以区分。因此,注意力图难以聚焦于相关区域,从而对非相关目标进行无差别的关注。在癌症肿瘤检测的情况下,如果不能区分视觉上相似但概念上不同的组织,可能会导致假阳性、不准确诊断和不必要的侵入性程序。

为了解决这些局限性,作者提出了一种方法,该方法扩展了Vision Transformers中的自注意力机制,使特征 Token 在应用自注意力之前能够在局部和全局尺度上进行交互。受局部卷积交互[13, 46]和全局注意力中互补属性的启发,作者的技术促进了特征交换,并允许 Token 根据它们的真实语义类别发展出更复杂和独特的表示。该方法在全局注意力步骤之前包含两个神经网络模块:

(1)激进式卷积池化,该模块迭代地应用深度卷积和池化操作,使每个特征 Token 能够捕捉局部和全局的交互,以及(2)一种概念注意力变换,由一种新颖的概念注意力 Transformer 实现,该 Transformer 通过一种新颖的逆流注意力机制利用高级概念知识[44],提供一种补充局部卷积交互的全局视角。

作者利用早期阶段的卷积来生成更明显、差异化的特征,从而有效减少在自注意力机制后期由孤立特征交互引起的平滑化。通过概念注意力变换,结合独特的投影层,这些增强的特征进一步得到细化,该投影层将输入与语义概念 Token 集成为一体[44]。这些结果产生了具有改进的上下文理解和特征表示的视觉 Token 。最终,自注意力被应用于与真实语义类别更紧密对齐的这些独特特征。

作者的增强型交互式视觉Transformer架构在目标检测方面,相较于最先进的Transformer模型,在广泛的Self-Attention模块结构中展现出显著的性能提升。

作者的贡献包括:

  1. 一种新颖的激进深度卷积池化模块,在自注意力之前结合了局部交互和全局交互(第5节)。
  2. 一种新的概念注意力转换,拥有独特的投影层,将模型输入与语义概念 Token 整合,以增强特征表示和交互。
  3. 关于基准目标检测数据集的比较分析,重点关注医学影像数据集。
  4. 一个具有挑战性的新基准目标检测数据集,包含癌症肿瘤(嵌合细胞簇)的 GT 标注。

背景

在人工智能领域,背景研究对于理解当前的研究趋势和技术发展至关重要。背景部分通常包括以下内容:

  1. 研究领域的现状:概述所研究的人工智能子领域的发展历程、现有技术以及面临的挑战。
  2. 研究动机:阐述进行该研究的原因,包括对现有技术的不足、未解决的问题以及研究的目标。
  3. 研究目的:明确指出研究的具体目标,即希望通过研究达到什么样的成果。
  4. 相关研究:回顾与本研究相关的前人工作,分析其方法和结果,以及与本研究的关系。
  5. 研究方法:简要介绍本研究采用的方法和策略,为后续章节的详细描述做铺垫。
  6. 预期贡献:阐述本研究可能带来的创新点和对人工智能领域的贡献。

确保背景部分的完整性,有助于读者更好地理解后续的研究内容和贡献。

本节提供了关于 Transformer 模型和自注意力机制方面的背景信息,这些信息激发了作者进行研究。

基于Transformer的目标检测器具有学习通用特征的能力,无需像CNN模型那样的内在归纳偏差约束,例如平移等变性及局部性[7]。自注意力机制,作为Transformer的基本操作机制[7, 41],能够有效捕捉全局信息,赋予每个特征 Token 一个全局感受野。这种能力对于目标检测至关重要,它使得模型中负责高级视觉任务的组件能够理解空间关系,并提取有意义的空间语义,以实现准确的检测。在第三部分中,作者讨论了与本研究相关的几个研究,这些研究探讨了基于Transformer的编码器在目标检测器中的有效性。

然而,也存在一些挑战。在多头注意力机制中,特征 Token 通过沿通道维度的线性聚合被投影,以计算自注意力机制的 Query 、 Key和Value 。(公式1)。这可能导致网络更多地依赖于位置编码信息,而不是提取对下游任务中视觉上相似的目标具有鲁棒性和代表性的特征。在这种公式中,特征 Token 在关注其他目标时被独立处理。因此,对于视觉上相似的目标,它们对应的 Query 、 Key和Value 几乎相同。

为了将这些模型作为一项技术的起点,该技术旨在提升复杂数据集中目标物体模糊(隐蔽物体数据集)的鲁棒目标检测的特征表示。

3. 前期研究工作

在本节中,作者回顾了与作者的方法密切相关的先前工作,重点关注目标检测方法。

矩阵、和代表不含偏差项的线性投影矩阵。函数作用于 Query 矩阵与键矩阵的矩阵乘积结果,并乘以进行缩放。这个缩放因子基于和在通道维度大小为的点积来标准化结果,从而得到注意力矩阵。注意力矩阵量化了值向量中每个特征对于中每个 Query 的相关性。视觉Transformer,作者工作的焦点,旨在处理图像数据的高层次计算机视觉操作。ViT在大规模数据集上训练时效率较高。因此,预训练的ViT是优秀的基座模型,能够将大量数据集上学习到的信息迁移到中等和小型图像识别基准数据集上的检测任务中,预测率可与最先进的CNN模型相媲美。 目标检测网络主要分为多阶段检测器和单阶段检测器[23, 25, 36]。两种方法都依赖于特征提取来捕捉代表各种物体的较高层次语义特征。在Transformer出现之前,原始方法开发了高效的基于卷积的特征提取器,作为针对目标检测任务量身定制的视觉编码器。如今,这些设计在基于Transformer的架构中补充并提升了整体性能[46]。在多阶段检测器中,特征会经过一个额外的区域 Proposal 网络(RPN)[37]进行处理,该网络生成一组潜在的感兴趣区域。然后,与这些区域对应的特点会被池化[22],以包含多尺度特征表示,再进行最终的检测。单阶段检测器绕过了RPN,直接生成检测 Anchor 点,同时进行目标分类和定位。最近的自回归解码器方法[3]进一步消除了对RPN和 Anchor 点生成的依赖。这些基于Transformer的解码器绕过了传统非最大值抑制的需要,之前这是多阶段和单阶段检测器所必需的。

基于Transformer的目标检测:以往关于视觉Transformer的研究主要采用传统的自注意力机制,该机制通过 Query 、 Key和Value (公式1)定义。这种机制通常生成展现过度均匀性的逐词注意力图[51]。这种均匀性导致了密集的片段嵌入聚合,从而产生过度相似的 Token 表示,作者称之为自注意力中的平滑效应。这一效应在医疗数据集中尤为明显,因为不同类别的目标在视觉上往往相似,以及在涉及隐蔽或伪装目标的自然数据集中。先前的工作[45, 51]通过在自注意力计算后丰富注意力图来解决这一问题。在本研究中,作者断言,在自注意力之前向特征表示添加额外上下文是一个必不可少的补充步骤。这种策略增强了注意力图的表达能力,优化了值特征的聚合,并显著提高了整体性能。

视觉Transformer:近期采用Transformer进行视觉任务的研究显著提高了视觉Transformer作为目标检测器的有效性。标准的ViT目标检测模型[21]采用了对Transformer模型的直接适配,仅做少量修改。这些原始模型取得了具有竞争力的成果。后续研究提升了特征提取能力。Swin Transformer[26, 27]引入了移位窗口机制以减少全局注意力的计算开销,并采用了层次结构来学习多尺度目标特征。受到将卷积属性与全局注意力相结合[46]的启发,DAT[47]、DAT++[48]、UniNet[24]和EdgeNeXt[29]利用了卷积和Transformer模块。作者探讨了优化ViT架构基础结构以适应复杂视觉感知任务的相关工作。

增强特征表示:作者的技术灵感来源于旨在提升视觉Transformer中特征表示的目标检测方法[13]。这些方法聚焦于编码器-解码器模块之外的Self-Attention机制之后的特征表示。作者认为,在Self-Attention机制之后的细化容易导致过度平滑化,且效果不佳。作者在Self-Attention之前生成更多的复杂性,并利用卷积神经网络(CNN)添加额外的局部感知能力,以补充全局注意力。

其他技术通过重新构建自注意力机制来克服 Transformer (Transformer)的局限性,如高计算成本和可扩展性问题。可变形注意力机制[47, 48, 53]有助于关注相关特征,而邻域注意力[14]引入了诸如局部性和平移等价性等归纳偏差。精炼器[51]和高层次概念注意力[44]是针对特征多样性进行优化的增强措施,这有助于在更广泛的检测任务中提升性能。

隐藏目标检测:作者的研究与针对复杂数据集的隐藏目标检测(COD)技术相一致。COD能够识别与背景无缝融合的物体,使得它们难以区分。一种基于卷积神经网络(CNN)的方法[50],专为在复杂医学数据集中检测癌症肿瘤而设计,通过在CNN的不同层中修改有效感受野,同时结合局部和背景上下文,以在单次前向传播中检测具有非判别性特征的物体,这些特征跨越广泛的不同尺度。SINet[8]引入了一个搜索子模块,并结合一个纹理增强模块(TEM),以提高判别性特征表示。然后,这些特征被用于生成一个粗略的注意力图,通过级联框架实现精确的COD。SurANet[17]在特征提取期间纳入了周围环境上下文,并应用了对比损失项,突出了通过融合周围信息增加视觉特征复杂性的好处。最近,SAM-Adapter[5]和SAM2-Adapter[4]利用图像编码器和 Mask 解码器的特征,通过多层感知器 Adapter 整合特定任务信息,以实现成功的COD。基于Transformer的架构通过利用建模全局关系的能力,在隐藏目标检测方面一直优于最先进的方法。

4 概述

图1展示了作者对基准(标准)视觉Transformer模块的系统架构。两个不同的交互模块——激进的卷积池化(ACP)和概念注意力变换(CAT)——使特征 Token 在自注意力之前进行交互。这些模块可以集成到广泛的ViT架构中。作者将激进的卷积池化置于概念注意力变换单元之前,因为卷积操作利用局部核来捕捉局部交互,这有助于补充全局注意力机制。卷积属性在早期过程中增强了特征复杂性,降低了全局注意力应用时的平滑效果。这种额外的增强将输入特征图转换为 Query 、 Key和Value 代表不同特征,这些特征编码了它们之间的关系。在注意力机制中的点积相似度增强特征复杂性,使得在不同语义类中视觉上相似的目标之间的差异更容易被检测到。

5. 侵略性注意力池化

作者提出了一种新颖的、在自注意力机制之前使用的激进深度卷积池化层,以结合局部和全局上下文来增强特征表示。作者的策略始于来自局部感知单元(LPUs)[13, 47, 48]中的方程2的深度卷积操作(DwConv),并通过一种迭代池化方案对其进行扩展,该方案显著增加了全局交互的有效视场,而不是仅限于卷积核窗口内的局部操作。与LPUs类似,作者的激进注意力池化方法发生在多头自注意力(MHSA)之前。

(0)是来自LPU操作的输出。

概念注意力转换

实验设置

为了展示作者增强架构的通用性,作者使用三种Transformer目标检测框架对其在目标检测任务中的性能进行了评估:标准视觉Transformer(ViT)[21]、Swin Transformer [27]和可变形注意力Transformer )[47, 48]。这些架构代表了一系列多样化的自注意力机制,从标准自注意力到如位移窗口注意力、可变形注意力等高级技术。作者的分析包括多个基准数据集,特别关注医疗数据集,包括作者贡献给研究社区的一个新的肿瘤(嵌合细胞簇)数据集。结果表明,作者的模块可以无缝集成到各种Transformer架构中,并显著提升它们的整体性能,特别是在复杂数据集领域。作者将在第7.2节中讨论作者针对不同视觉Transformer模型的交互增强模块的实现细节。数据集和训练过程在第7.1节中提供。

7.1 数据集

图4展示了作者评估所用的基准数据集范围。对于每个数据集,作者尽量减少架构修改,仅根据提供的配置调整块嵌入大小、输入分辨率和输出类别数量。作者的评估包括在作者新发布的CCellBio数据集上进行测试,该数据集包含26,991张训练图像和3,643张测试图像,这些图像是组织扫描中癌症肿瘤的图像,并附有真实标注。此外,作者还对几个公开数据集进行了模型评估:COD10K-V2 [8, 9]、脑肿瘤检测 [6]、VinDr-CXR [12, 31, 31]、NIH-ChestXRay [43],该数据集包含近1,000张图像,标注了8个类别的边界框,以及RSNA肺炎检测数据集 [30,33, 38, 43],该数据集包括7,644张训练图像和1,911张测试图像,用于检测肺不张。

作者在研究的所有数据集上以一致的方式应用数据增强,具体步骤如下:以50π的概率进行随机翻转,在0.1到2.0的范围内随机调整大小并保持长宽比,以及随机裁剪。接着,作者在进行均值归一化(平均值分别为123.675、116.28、103.53)和标准差归一化(三个颜色通道的标准差分别为58.395、57.12、57.375)之前,移除空间维度(高度或宽度)小于的标注,以获得更稳定的训练。最后,对图像进行填充,以匹配定义的图像大小(高度、宽度、通道分别为114、114、114)。

7.2 模型配置

作者的研究集中于改进Transformer主干架构,这是一种用于高级计算机视觉任务特征提取的模型;在作者的案例中是目标检测。因此,作者在RetinaNet框架[23]内评估了上述Transformer模型(标准Vision ViT[21]、Swin[27]和[47, 48]),这是一个由主干网络和两个特定任务子网络组成的单一、统一的网络。尽管如此,提出的方法是通用的,可以扩展到其他检测框架。现在,作者描述了一种全面的评估方法,强调了作者的模块在多样化的Transformer架构中的适应性,证实了其在更广泛泛化方面的潜力。

主干网络配置:对于每个 Transformer 主干网络,作者推导出两种版本:原始架构(ViT、Swin和DAT),以及包含作者增强交互模块的相应修改版本(EI-ViT、EI-Swin和EI-DAT)。为确保公平评估,增强架构配置与原始架构保持一致,并且作者将 Baseline 模型的隐藏维度增加,以近似增强交互架构的参数数量。作者保持了所有架构组件的一致配置,仅替换主干网络来比较它们相对的性能。对于ACP和CAT,卷积维度和概念的数量均设置为与 Baseline 主干网络每层的隐藏维度相匹配。同样,概念注意力 Transformer 中的头数与 Baseline 中的注意力头数相同。

作者的改进交互方法主要增加通道宽度而非Transformer模块的数量。因此,作者将 Baseline 模型宽度进行扩展,以近似增强模型的参数数量,以便在特征和注意力图分析中进行公平的比较。作者确保两个模型保持相同的深度和注意力头数量。根据图5所示的输入空间维度,作者将 Baseline 模型分为两组。对于CCellBio数据集,其输入图像为, Baseline VIT、DAT和SWIN Transformer的参数数量分别为71.6M、23.5M和247.1M,而增强版本分别为54.5M、36.2M和247.1M参数。对于COD10k-V3、NIH胸部X射线和RSNA肺炎数据集,其输入图像为,作者将 Baseline VIT、DAT和SWIN的参数数量分别扩展到71.6M、23.9M和247.1M,与增强模型相比,其参数分别为58.7M、39.6M和277.1M。

这种方法最小化了架构修改,使作者能够将性能提升归因于改进的自注意力交互,而不是模型规模的增加。作者的实现采用特征金字塔网络(FPN)[22]来增强跨多层的层次特征提取,这是 Transformer Backbone 的常见特征。然后,FPN的输出通过RetinaNet Head [23]进行处理,以预测边界框。每个组件的详细配置总结在表2和表1中。 Baseline 和其增强的交互架构的所有 Backbone 配置均提供在附录中。

训练与测试: Baseline 模型及其增强的交互架构在基准数据集上独立训练了30个epoch,并在相应的测试集上进行评估。训练过程中采用随机初始化的权重,强调所提出的增强交互模块无需预训练。作者在不同的交并比(IoU)阈值(mAP50和mAP75)下评估了平均平均精度(mAP)和平均召回率(AR)。

8 结果与分析

作者在此展示了针对CCellBio、COD10K-V2、脑肿瘤和RSNA肺炎数据集(分别对应表3、4、5和7)的基准评估结果。本节首先对所讨论的发现进行总结。ACP和CAP增强了交互组件:

全面提升五个具有挑战性的检测数据集上的mAP和AR指标。(表3、4、5、6和7)并且在提高mAP方面比AR更有效(图7和6)。

提升特征表示并减少过度平滑,通过允许特征在局部和全局范围内进行交互,从而产生更清晰的特征图,能够更有效地区分视觉上相似的目标(见图8)。

在Self-Attention之前调整注意力行为。在此过程中,网络在早期块中表现出注意力降低,而在后期块中,随着更具描述性的语义表示,注意力活动增加(见图9)。

提升基准模型的性能,无需依赖参数数量的增加或额外模块。(见图11)

8.1 量化基准数据集分析

CCellBio:对CCellBio数据集的评估,该数据集专注于在染色组织扫描中进行癌症肿瘤检测,表明通过增强的交互架构在大多数指标上均实现了持续的改进。EI-VIT在mAP上比 Baseline 提高了9.14%,在mAP50上提高了5.69%,在mAP75上提高了14.58%,在AR上提高了5.71%。类似地,EI-DAT在mAP上提高了1.92%,在mAP50上显著提高了3.49%,在AR上提高了1.50%。EI-SWIN在所有指标上均持续优于 Baseline 。它实现了mAP提高7.85%,mAP50提高6.21%,mAP75提高14.65%,AR提高5.50%。这些结果证实了所提出的交互模块在不同 Backbone 架构上的泛化能力和有效性,并强调了它们在医学成像应用中提高癌症肿瘤检测潜力的可能性。

COD1oK-V3数据集上,改进的交互架构在所有指标上均优于各自的 Baseline 。EI-VIT实现了显著的提升,mAP提升了21.05%,mAP50提升了17.45%,mAP75提升了166.67%。然而,由于处理可变形点时的挑战,与 Baseline VIT模型相比,相对性能下降了0.36%,这将在第1o节中讨论。EIDAT在mAP上提升了15.15%,在mAP50上提升了9.66%,在mAP75上提升了42.86%,在AR、AR300和AR1000上分别增加了2.99%。EI-SWIN的性能提升最为显著,mAP提升了103.03%,mAP50提升了73.85%,mAP75提升了375.00%,AR整体提升了24.91%。因此,作者在更高的IoU阈值(mAP75)上提高了AR和精度,这对于在像COD10K-V2那样的困难场景中检测隐藏物体至关重要。

脑肿瘤:如表5所示,增强型架构在所有mAP和AR指标上均优于 Baseline ,实现了脑肿瘤检测。具体来说,ViT在mAP、mAP50、mAP75和AR方面分别实现了、、和的性能提升。DAT模型也显示出积极的改进,分别实现了、、和的增益。Swin Transformer在mAP、mAP50、mAP75和AR方面展现出最大的改进,分别提升了、、和。

NIH胸部X光片:表6展示了该模型在NIH胸部X光片检测数据集上的评估结果。EI-ViT在mAP、mAP75和AR指标上均优于标准ViT模型,分别提升了7.69%、40%和3.91%。然而,mAP75指标下降了21.95%。数据集相对较小的规模可能解释了当模型未使用预训练权重初始化时观察到的较低性能评分,因为有限的数据可能会阻碍模型有效泛化的能力(见第10节)。EI-DAT在纯DAT模型上显示出显著提升,bbox_mAP、bbox_mAP_50和bbox_mAP_75分别提升了30.77%、40.00%和27.27%,特别是在bbox_mAP_50方面显著提高了性能。EI-Swin在纯Swin Transformer上也表现出改进,bbox_mAP、bbox_mAP_50和AR分别提升了121.43%、102.50%和180.00%。增强的交互模块在Transformer模型中持续提高检测性能。然而,对于如NIH胸部X光片这样的小数据集(见第10节),如果没有预训练权重,预测率会降低,这对模型向小数据集泛化造成影响。

对于RSNA肺炎数据集,表7中EIVIT、EI-DAT和EI-SWIN相对于它们的 Baseline 版本,在性能上表现突出。相对提升的幅度因模型和基准测试而异,凸显了在特定架构中增强上下文交互的有效性。EI-VIT在bbox_mAP上提升了7.27%,在bbox_mAP_50上提升了4.39%,而在bbox_mAP_75上实现了惊人的14.29%增长,展示了在粗粒度和细粒度检测精度上的显著提升。所有bbox_AR指标上的召回率提升仅为0.43%,表明在不同的IoU阈值下,目标去噪性能保持一致。EI-DAT的结果混合,具体解释见第10节,而bbox_AR指标提升了0.64%,以获得更好的召回率。bbox_mAP略有下降,下降了1.69%,而bbox_mAP_75下降了4.55%。然而,EI-DAT在bbox_mAP_50上仍然实现了1.15%的适度提升,表明其增强在较低的IoU阈值上更为有效。这些结果表明EI-DAT在细粒度检测上可能存在一定的局限性。EI-SWIN带来了最显著的相对提升;bbox_mAP提升了25.53%,bbox_mAP_50提升了18.67%,而在bbox_mAP_75上实现了令人印象深刻的78.26%增长。回忆一下,AR提升了3.56%,突显了全面的一致提升。SWIN的分层架构尤其适合从增强的上下文交互中受益。

跨数据集分析。作者的增强交互模块在五个数据集上展示了改进的mAP指标,如图7所示。增强架构在所有数据集上均实现了更高的mAP分数,其中Swin Transformer的平均提升最高,达到6.14%,其次是ViT(2.84%)和DAT(0.78%)。增强交互组件的加入也提升了平均召回率指标,如图6所示。总体而言,相对于所有五个数据集的平均AR提升分别为ViT 1.62%,DAT 1.08%,Swin Transformers 4.42%。在最大相对提升方面,Swin Transformer达到24.91%,其次是DAT(12.67%)和ViT(7.84%)。在大多数数据集中,在多头自注意力之前加入增强交互,均能带来一致的提升,但在COD10k-V3数据集上的DAT模型表现出了微小的相对下降0.36%,这一点将在后文进行讨论。

作者的研究显示,Swin Transformer在增强交互中获益最大,实现了在AR和mAP指标上最高的相对提升。作者假设在自注意力之前进行的交互可以细化Swin Transformer每个子窗口内的特征表示。通过向特征中添加局部和全局信息,这些交互使得移动窗口机制能够更有效地捕捉到增强窗口块内的关系。

8.2 定性特征与注意力分析:

特征分析:作者对 Baseline ViT架构及其增强版本在CCellBio数据集内部特征表示中生成的特征图进行了详细分析,以评估作者提出的改进措施的影响。利用主成分分析(PCA),作者分析了 Baseline ViT和EI-ViT模型四个转换块的输出特征图,如图8所示。这些转换阶段旨在计算不同空间分辨率的特征,提供多尺度特征表示。请注意,在每个阶段中都有多个转换块。在作者的设置中,作者决定使用包含每个阶段3个块的简单ViT架构。

表5. 基于脑肿瘤数据集的模型评估 表7. 基于RSNA肺炎数据集的模型评估

分析揭示了两个模型在性能差异上的显著特征图差异。值得注意的是,EI-ViT模型中在自注意力之前的增强交互产生了更清晰、更详细的特征图,并具有聚焦于物体的表征。这从图8的子图(c)、(d)、(e)和(f)中的特征图可以明显看出,与 Baseline ViT相比,EI-ViT模型展现了更复杂的纹理。

这一观察结果支持作者的假设,即在Self-Attention之前启用特征 Token 交互会增加特征的复杂性,使它们更加独特并更能代表其真实的语义类别。例如,在两个模型中的最终特征图层(如图中子图(f)所示),EI-ViT相较于基准ViT的更为分散的聚焦,对真实目标的表示更为紧凑和集中。在作者的特征分析中的多个实例中,这一行为均被一致观察到,突显了交互模块在精炼特征表示方面的有效性。

作者执行中心核对齐(Center Kernel Alignment,CKA)相似性分析[19],以量化ViT和EI-ViT之间的特征相似度。该分析旨在研究增强的交互模块如何影响不同层级的特征相似度。作者使用CCellBio测试集,在四个层级上评估了ViT和EI-ViT Backbone 网络生成的特征图相似度。请注意,每个层级包含多个模块,ViT模型中总共有12个模块,分为4个层级,每个层级包含3个模块。作者检查了这4个层级的特征图。

对于每个数据点(测试图像),作者计算了线性和核CKA来衡量特征相似度。CKA分析的结果,包括平均值、中位数和标准差,如图10和图11所示。对于线性CKA分析,四个阶段(1至4)获得的平均相似度值分别为0.8513±0.0650,0.7650±0.1012,0.0713±0.5220,以及0.8263±0.0705。在核CKA的情况下,相应的相似度分数分别为0.7401±0.1187,0.7105±0.1017,0.7898±0.0978和0.8306±0.0644。在线性和核CKA的比较中,作者发现尽管特征表现出高度相似性,但仍有显著差异。具体来说,最后层的CKA得分在两种情况下都始终低于0.86,这表明特征表示存在一些差异。此外,存在显著的偏差和异常值,在某些情况下呈现出相似度降低的趋势。引入ACP和CAT使得EI-ViT Backbone 网络能够学习到与 Baseline ViT学习到的特征不同的特征。这种差异在CKA和PCA分析中都有所体现,增强模型展示了更多样化的特征表示。

注意图分析:作者分析了ViT和EI-ViT产生的注意图,以研究增强交互模块对多头注意力机制的影响。在图9中,作者提取并展示了1、5、8和12个模块的注意图,并应用了保留模式的Otsu阈值算法以增强其可见性,因为注意图模式通常难以观察和解释。作者的分析突出了交互模块对视觉 Transformer 注意力行为的影响。在标准ViT架构的早期层,注意图表现出强烈的对角线模式,如图9(a)所示。这种行为对于像ViT这样的架构是典型的,这些架构在早期处理阶段倾向于关注局部模式,并表明网络最初采用了类似于卷积滤波器中看到的局部性和归纳偏差。相比之下,包含交互模块的EI-ViT模型在早期层显示出的注意力活动显著减少。

随着网络向更深层次发展,其行为发生变化变得明显。在ViT模型中,如图9(d)和(e)所示的较深层,其注意力强度相对于早期层有所降低。因此,网络在深层中捕捉全局关系的能力减弱。相比之下,图9中EI-ViT的注意力图呈现出更加多样化和集中的分布,尤其是在深层。图9(e)突出了EI-ViT更明显的垂直注意力模式,这与ViT中更为普遍的关注点形成对比。这种变化表明,EI-ViT中增强的交互模块使网络能够在更深特征层中分配其注意力到更广泛的区域,从而能够关注更强的语义特征图中更细微的细节。因此,EI-ViT在捕捉和区分各种语义类别中的目标方面更具能力,即使它们的外观相似。

第九节 消融研究

为了理解激进的卷积池化和概念注意力转换在提升模型检测能力中的个体贡献,作者通过单独评估每个组件的性能来评估模型。作者评估了每个组件通过促进相互作用如何影响整体性能。此外,作者还通过独立改变卷积池化块的数量和概念的数量进行实验。在这个实验中,作者专注于ViT架构,因为它代表了基础转换模型,并在CCellBio数据集上评估了其性能。使用ViT作为 Baseline 提供了一个清晰的比较框架,使作者能够在既定背景下评估引入的组件的影响。

隔离评估。作者首先分别独立地使用ACP层或CAT层训练ViT模型,以评估每个组件对整体性能的贡献。记录的基准指标在图12中展示,图中显示了基准ViT、EI-ViT以及具有独立ACP和CAT组件的ViT模型在mAP50、mAP75和AR方面的性能表现。

作者的观察发现,移除激进的卷积池化操作使得mAP50提升了5.56%,AR提升了5.07%,与 Baseline ViT相比。然而,与EIViT模型相比,这导致了mAP50降低0.13%,AR降低0.65%。移除概念注意力 Transformer 的影响更为显著,与EI-ViT模型相比,mAP50降低了1.22%,AR降低了1.06%。仅包含ACP层的mAP75指标提升了17.36%。同样,仅包含CAT层使得mAP75相比 Baseline 提升了17.01%,也优于EI-ViT架构。这是因为当两者都存在时,卷积和注意力机制提取的竞争性特征对大物体,使得网络在mAP75指标上表现更难。此外,作者还对ViT-CAT和ViT-ACP模型进行了额外的训练轮次。尽管独立的激进的卷积池化ViT-ACP性能没有进一步提升,但作者观察到独立的ViT-CAT持续降低损失,并在基准测试中获得了额外分数,甚至在CCellBio数据集的所有指标上超过了EI-ViT。具体来说,与包含卷积池化和概念注意力 Transformer Layer EI-ViT相比,mAP提升了1.83%,mAP50提升了0.13%,mAP75提升了4.55%,AR提升了0.20%。作者的研究显示,在较低的训练轮次下,使用ACP组件有助于网络更快收敛并实现高关键性能指标。然而,当进行更多轮次训练时,CAT组件可以学习更多相关特征,无需ACP组件,从而实现更高的关键性能指标。

激进卷积池化。本研究探讨了改变卷积池化层数对整体网络性能的影响。该技术被整合到 Baseline ViT架构中,并通过AR和mAP在两个不同的阈值(mAP50和mAP75)下评估网络的性能。图14所示的结果揭示了卷积池化层数与网络性能之间的明确关系。应用激进卷积池化后,mAP50和AR指标有显著提升,尤其是在池化层数相对较少的情况下。当池化层数限制为四层时,网络提高了定位物体和召回真实正例的能力。一个有趣的观察结果是,当层数设置为1或7时,mAP75指标的性能低于 Baseline ,这表明过少的或过多的池化层会阻碍模型在更高阈值下处理物体定位的能力。

在所有三个指标上,当池化层的数量设置为两个时,可以获得最佳性能。在这种配置下,网络在mAP50、mAP75和AR方面分别实现了4.47%、17.01%和4.23%的相对改进。这表明,卷积池化层的最佳数量位于一个平衡配置中,其中策略性地应用池化以提取关键特征,同时不过度扭曲网络保留细粒度细节的能力。

尽管引入了激进的卷积池化后整体性能有所提升,但性能提升在两层时达到顶峰。超出这个层次的额外层只会导致效果递减。事实上,当应用超过两层池化层时,网络的性能开始下降。作者推测,这种性能下降是由于在每层卷积之后过度使用池化操作所致。这种快速池化可能导致网络丢弃或过度简化重要的空间信息,使得模型难以保留进行有效目标检测和定位所需的环境细节。即便使用了残差连接,频繁的池化操作也可能阻碍网络学习判别特征和保留深层信息中相关的能力。虽然激进的卷积池化在某些情况下可以提高ViT架构的性能,但找到池化层之间的最佳平衡至关重要。这些发现强调了严格控制池化量级的重要性,因为它会对网络泛化能力和在目标检测任务中的表现产生重大影响。

概念注意力转换:为了评估概念数量对性能的影响,作者使用仅通过CAT层增强的 Baseline ViT架构进行了全面分析。性能指标包括mAP50、mAP75和AR,概念数量系统性地从32增加到512。结果展示在图13中。所有三个指标(mAP50、mAP75和AR)在概念数量与性能之间表现出一致且正的相关性。随着概念数量的增加,网络在检测目标的能力上显示出显著的提升,尤其是在识别需要更精细注意力的小型或局部化目标时取得了显著进步。对于mAP50,当概念数量增加到512时,性能提升最为显著,相对提高了高达6.37%。这表明更大的概念池使模型能够捕捉场景中更详细的目标特征,从而实现更好的定位和整体检测精度的提升。

对于mAP75和AR指标也观察到类似的模式。在512个概念时,网络在相对性能上分别提升了16.32%和4.12%,这表明由更多概念提供的一系列概念表征能更精确地产生结果,尤其是在更高的交并比(IoU)阈值下,并且提高了召回率。这些性能提升反映了模型在保持高精度的同时提高召回率的能力,尤其是在检测物体边界较为困难或需要更全面理解物体上下文的情况下。

10 限制

在本文的研究中,存在以下限制:

  1. 数据集局限性:所使用的数据集可能无法完全代表所有可能的场景,这可能会对模型泛化能力产生一定影响。
  2. 算法复杂度:某些算法可能具有较高的计算复杂度,导致在实际应用中难以实现。
  3. 模型可解释性:部分AI模型,如深度学习模型,其内部机制复杂,难以解释其决策过程。
  4. 环境适应性:模型在特定环境下表现良好,但在不同环境下可能需要调整或重新训练。
  5. 隐私保护:在处理敏感数据时,需要考虑数据隐私保护问题。
  6. 资源消耗:AI模型训练和运行过程中,可能会消耗大量计算资源和能源。
  7. 伦理道德:AI技术在某些领域的应用可能引发伦理道德问题,需要谨慎对待。
  8. 法律法规:AI技术的发展和应用需要遵循相关法律法规,以确保其合法合规。
  9. 技术更新:AI技术发展迅速,现有技术可能很快被新的技术所取代。
  10. 跨领域应用:AI技术在跨领域应用时,可能需要针对不同领域进行定制化调整。

在本节中,作者讨论了本方法存在的局限性。作者观察到,增强交互机制的实施可能会阻碍EI-DAT模型有效学习变形点的能力。在这种情况下, Query 矩阵被设计用来学习和生成变形点。这些偏移点随后被用于插值特征图。然而,模型增强带来的额外复杂性使得准确计算 Query 变得困难。这导致模型性能下降,最终影响了其mAP性能,因为它在关注相关区域时遇到了困难。

作者对未经预训练的增强交互模型进行了性能基准测试,以证明该方法不依赖于无监督预训练即可实现具有竞争力的结果。尽管增强交互模型仍然优于各自的 Baseline ,但作者观察到当在小型数据集上从随机初始化开始训练时,这些模型的平均精度(mAP)和平均召回率(AR)得分较低。这一现象在将模型应用于NIH胸部X射线数据集时尤为明显,因为该数据集规模有限,模型在没有预训练权重的情况下难以实现更高的分数。

作者的消融实验表明,当前的设计不允许使用过多的CNN池化层。有机会探索在不同CNN池化层之间聚合特征的方法,通过增加有效的CNN池化层数量,从而创建更大的感受野。

11 结论

在本研究中,作者提出了一种针对目标检测中视觉Transformer Backbone 网络的增强交互建模方法。作者的研究发现,在自注意力之前启用交互可以在多个具有挑战性的医疗和隐蔽目标检测数据集以及多样化的评估指标上提升性能。

作者展示了通过引入作者激进的关注池化和概念关注转换,可以改变自注意力的行为,使其能够学习到比原始 Baseline 模型更独特的特征和注意力图。

修改后的模型在特征空间中更清晰地区分和表示这些特征和注意力图,即使不同类别的物体具有相似的外观。这种交互使得自注意力操作更容易集中在相关且多样的区域。作者的实验表明,随着训练周期的延长,概念注意力 Transformer 无需ACP组件即可达到具有竞争力的性能。

总之,这项研究证明了在局部和全局尺度上的先前自注意力交互是重要的补充操作,使视觉Transformer能够学习到稳健且多样化的特征,从而提高目标检测能力。

参考

[1]. Unified Local and Global Atention Interaction Modeling for Vision Transformers .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 背景
    • 3. 前期研究工作
    • 4 概述
    • 5. 侵略性注意力池化
  • 概念注意力转换
  • 实验设置
    • 7.1 数据集
    • 7.2 模型配置
    • 8 结果与分析
      • 8.1 量化基准数据集分析
      • 8.2 定性特征与注意力分析:
  • 第九节 消融研究
    • 10 限制
    • 11 结论
    • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档