前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >双解码器与混合 CNN-Transformer :D-TrAttUnet 在成像分割任务上,超过现有最佳解决方案!

双解码器与混合 CNN-Transformer :D-TrAttUnet 在成像分割任务上,超过现有最佳解决方案!

作者头像
用户5536580
发布2024-07-04 15:37:19
1690
发布2024-07-04 15:37:19
举报
文章被收录于专栏:未来先知

在过去的二十年里,医学成像的机器分析发展迅速,为几个重要的医学应用开辟了巨大的潜力。随着复杂疾病的增加和病例数量的增加,基于机器的成像分析的作用变得不可或缺。 它既是医学专家的工具,也是他们的助手,提供有价值的见解和指导。在这个领域尤其具有挑战性的任务是病灶分割,即使对经验丰富的放射科医生来说, 这也是一项具有挑战性的任务。这项任务的复杂性凸显了迫切需要强大的机器学习方法来支持医务人员。作为回应,我们提出了新的解决方案:D TrAttUnet架构。这一框架是基于观察到不同的疾病通常针对特定的器官。我们的架构包括一个编码器-解码器结构与一个复合变压器CNN编码器和双解码器。 编码器包括两条路径:变压器路径和编码器融合模块路径。 双解码器配置使用两个相同的解码器,每个解码器都有注意门。这使得模型可以同时分割病变和器官,并整合它们的分割损失。为了验证我们的方法,我们对Covid-19和骨转移的分割任务进行了评估。 我们还通过测试该模型在没有第二解码器的情况下对腺体和细胞核分割的适应性进行了研究。 结果证实了我们的方法的优越性,特别是在Covid-19感染和骨转移的分割中。此外,混合编码器在腺体和细胞核的分割方面表现出优异的性能,巩固了其在现代医学图像分析中的地位。

1 Introduction

自从高级深度学习方法,特别是卷积神经网络(CNNs)的发展以来,它们已成为医学影像分割的主导方法,包括像U-Net、关注U-Net(AttUnet)和U-Net++(Unet++)这样的架构。

近年来,Transformer在自然语言处理(NLP)任务中取得巨大成功,这促使研究者们广泛探索它们在医学影像分割中的应用,显示出有希望的绩效。这种探索催生了像Swin-UNet这样的基于Transformer的分割架构,其特点是具有“U”形的U-Net结构和完全的多头自注意力块,不包括卷积块。相反,一些研究努力提出混合架构,同时利用Transformer和卷积块,例如TransBTS和UNETR

这些努力可以分为三类:

(i)仅使用Transformer层重建编码器,

(ii)使用CNN编码器提取深度表示,然后对嵌入的CNN特征应用Transformer层(Wang等人,2021年,2022b年),以及

(iii)在跳跃连接阶段整合Transformer块以将编码器特征传递到解码器层(Petit等人,2021年;Wang等人,2022a年)。

尽管结合了CNN和Transformer块的多种方法,但仍有一些改进空间。作者的方法旨在在编码阶段有效地结合CNN和Transformer块,同时提取局部、全局和长距离依赖特征。为此,作者提出了一条Transformer编码器路径,并将其与所提出的编码器融合模块中的不同 Level 的提取CNN特征相结合。

在本文中,基于疾病通常影响一个或多个人体器官的观察,提出了一种新的基于Transformer-CNN的方法。所提出的解决方案通过使用第二个解码器进行器官分割作为次要任务,旨在指导训练关注感兴趣的目标(器官)。另一方面,提出了一种混合Transformer-CNN编码器,在编码阶段提取丰富的特征,这对于避免CNN和Transformer方法的捷径起着关键作用。

实际上,由于疾病的内在机制、特征和影响的多样性,分割医学图像是具有挑战性的。作者提出的方法在两个具有器官/感染属性的任务上进行评估:骨转移分割(BM)和Covid-19感染分割(在二分类和多分类场景中)。对于这两个任务,利用了混合CNN-Transformer编码器和双解码器。

此外,为了检查所提出的混合CNN-Transformer方法对不具有器官/感染属性的任务的有效性,评估了腺体和细胞核分割。总之,这项工作的主要贡献是:

  1. 作者提出了一种新型的混合CNN-Transformer架构,通过将多级Transformer特征整合到编码器中。这种方法旨在捕捉更高层次的局部特征,同时保持来自不同输入块的长距离依赖性。
  2. 作者提出的解码器由两个相同的解码器组成,以同时处理病变和器官分割。通过利用注意力门、残差块和上采样层,这些设计启发于许多疾病影响一个或多个人体器官的观察。
  3. 在具有挑战性的分割任务上评估了作者的方法,包括在二分类和多分类场景下的骨转移和Covid-19感染。此外,作者还评估了混合编码器在腺体和细胞核分割中的有效性,提供了对模型适应性的全面了解。
  4. 与各种分割方法(包括CNN和基于Transformer的方法)的广泛比较,证明了作者的D-TrAttUnet架构在骨转移和Covid-19分割任务中的优越性能。混合编码器在腺体和细胞核分割中也被证明是有效的。D-TrAttUnet的代码将在https://github.com/faresbougourzi/D-TrAttUnet上公开提供。

本文结构如下:

第2部分介绍了一些基于CNN和Transformer的分割架构的相关工作。

在第3部分,作者描述了作者提出的方法。

第4部分包括用于评估作者方法性能的数据集描述。

第5部分展示了实验及结果的讨论。

第6部分展示了作者方法的预测结果与最佳比较方法之间的可视化对比。

最后,第7部分总结了本文。

2 Related Work

在本节中,作者简要回顾了医学图像分割领域的相关工作,包括基于CNN(卷积神经网络)和Transformer的方法,然后作者将描述选定的任务以评估所提出方法的性能,并强调每个任务的重要性和挑战。

CNN Segmentation Architectures

自从第一个深度CNN架构“Alexnet” Krizhevsky、Sutskever和Hinton在2012年的ImageNet Deng、Dong、Socher、Li、Li和Fei-Fei挑战中取得巨大成功以来,CNN已经在许多计算机视觉和机器学习任务中达到了最先进的表现Bougourzi、Dornaika和Taleb-Ahmed;Bougourzi、Dornaika、Barrena、Distante和Taleb-Ahmed。分割任务受到了CNN巨大成功的深刻影响,因此,许多CNN架构已经证明了它们在分割许多复杂的医学成像任务方面的能力Ronneberger、Fischer和Brox;Zhou、Yen和Yi;Tomar、Jha、Riegler、Johansen、Johansen、Rittscher、Halvorsen和Ali 。

自从Unet架构Ronneberger等人(2015)在2017年被提出以来,已经取得了巨大进步,并提出了许多Unet变体,例如Attenion Unet(Att-Unet)Oktay、Schlemper和Folgoc,Unet++ Zhou、Rahman Siddiquee、Tajbakhsh和Liang,ResUnet Zhang、Liu和Wang。

Unet Ronneberger 等人是一种具有编码器-解码器结构的CNN架构。Unet的编码器由连续的CNN层组成。每一层包含卷积和池化层。另一方面,解码器由连续的反卷积层组成。

编码器和解码器通过跳跃连接连接在一起,编码器的特征图与解码器特征进行拼接,以通过传递细粒度细节到解码器中。这形成了“U形”。在Oktay等人中,O. Oktay等人提出了注意力门(AT),通过同时使用编码器和解码器特征图来确定显著区域。

Transformers in CV

Transformer能够捕捉序列元素之间的长距离依赖关系。因此,Transformer在自然语言处理(NLP)领域被广泛应用 Khan, Naseer, Hayat, Zamir, Khan和Shah (2021)。受到在NLP领域巨大成功的启发,在过去的两年里,Transformer在计算机视觉领域也受到了广泛研究 Khan等人(2021)。Transformer在许多计算机视觉任务中显示出有希望的结果,并提出许多基于Transformer的架构,例如ViT Dosovitskiy, Beyer, Kolesnikov, Weissenborn, Zhai, Unterthiner, Dehghani, Minderer, Heigold和Gelly (2020),Swin-Transformer Liu, Lin, Cao, Hu, Wei, Zhang, Lin和Guo (2021b),以及Deit Touvron, Cord, Douze, Massa, Sablayrolles和Jegou (2021)。

同样,Transformer在医学成像领域也获得了许多关注 Shamshad, Khan, Zamir, Khan, Hayat, Khan和Fu (2022)。实际上,Transformer在许多医学成像任务中显示出有希望的性能,例如分类任务 Dai, Gao和Liu (2021),检测任务 Shen, Fu, Lin和Zheng (2021)以及分割任务 Hatamizadeh等人(2022)。由于这项工作的重点是分割任务,将描述一些基于Transformer的分割方法。

分割架构可以分为2-D Wu, Chen, Chen, Wang, Lei和Wen (2022); Petit等人(2021) 或3-D模态 Hatamizadeh等人(2022); Wang, Chen, Ding, Yu, Zha和Li (2021b)。

在Wu等人中,H. Wu等人提出了一种名为“Fat-Net”的CNN-Transformer架构,该架构使用两个编码器(CNN和Transformer编码器)。

两个编码器的特征图被连接起来,以获得来自两个编码器的更丰富的特征。在连接的特征上应用了Squeeze and Excitation(SE)模块 Hu, Shen和Sun (2018),以识别来自不同特征通道的最重要的特征相关性。Fat-Net在四个公开数据集上评估了皮肤病变分割。

在U-Transformer Petit等人(2021)架构中,将多头自注意力模块和跨注意力模块注入到U-Net架构中。这两个模块被放置在跳过连接处,以从U-Net编码器中学习全局上下文信息,并将它们传递给其解码器 Petit等人(2021)。U-Transformer架构在两个腹部CT图像数据集上表现良好 Petit等人(2021)。

在Hatamizadeh等人(2022)中,A. Hatamizadeh等人提出了一种名为“UNETR”的基于Transformer的多类3D分割架构。UNETR的编码器由一个Transformer构建,从中获得四个 Level 的特征并通过反卷积层进行重缩放。重缩放后的图通过不同分辨率的跳过连接连接到CNN解码器,形成“U形”。

已经提出了几种方法将CNN和Transformer块集成到单一架构中,重点是将在Transformer架构融入到编码块中。以下是一些提出的编码器配置:仅使用Transformer架构构建编码器 Hatamizadeh等人(2022); Zhu, He, Qi, Li, Cong和Liu ; 使用两个平行的编码器,一个基于Transformer,另一个基于CNN,然后结合它们的输出 Wu等人; He, Qi, Zhu, Li, Cong和 Bai ;

或者实现一个CNN编码器后接Transformer块 Wang等人(2021a, 2022b)。尽管结合CNN和Transformer块的方法多种多样,但仍有改进的空间。作者的方法旨在在编码阶段有效地合并CNN和Transformer块,以同时提取局部、全局和长距离依赖特征。为此,作者提出了一个Transformer编码器路径,并将其与在不同 Level 提取的CNN特征在所提出的编码器融合块中结合。

Introducing the Evaluated Medical Imaging Segmentation Tasks

骨髓分割(BM segmentation)极为复杂,即使是经验丰富的放射科医生也感到极具挑战性,这归因于几个复杂因素。全身普遍存在的骨骼使得分配和跟踪骨髓病变变得困难和耗时。此外,骨髓的表观存在很大变异性,这取决于病变的性质、骨头的位置以及感染的发展和阶段。将骨髓与其他良性状况、骨折、骨岛和退行性变化区分开来通常是令人困惑的(Heindel 等 2014;Afnouch 等 2023)。

另一方面,从组织学图像中自动分割结肠腺体对于癌症分级至关重要,这是确定癌症进展和适当治疗方案以挽救生命的关键步骤(Sirinukunwattana, Pluim, Chen, Qi, Heng, Guo, Wang, Matuszewski, Bruni, Sanchez 等 2017)。传统上,癌症分级依赖于病理学家主观且耗时的评估,这需要手动量化肿瘤细胞异常。这些挑战凸显了使用机器学习方法自动化这一过程的迫切需求。

除了骨髓和腺体分割,作者的方法还扩展到了新冠感染分割。这一任务包括二元分割,即区分感染的存在与否,以及多类别分割,通过将非感染、磨玻璃影(GGO)或实变进行分类,提供细致的视角(Zhao 等 2021;Wang 等 2022)。二元分割量化了肺部感染的扩散,而多类别分割则提供了关于感染阶段、进展和严重程度的见解(Zhao 等 2021;Wang 等 2022;Bougourzi, Distante, Dornaika, Taleb-Ahmed 和 Hadid 2022)。然而,多类别新冠分割的数据稀缺限制了这一领域的研究(Zhao 等 2021;Wang 等 2022)。分割新冠感染的主要挑战来自它们在强度、形状、位置和类型上的高变异性,进一步复杂化的是感染阶段、症状和严重性等因素(Kumar Singh, Abdel-Nasser, Pandey 和 Puig 2021;Laradji, Rodriguez 和 Manas 2021)。这些挑战需要一种高效的深度学习方法,以有效地分割新冠感染,从而挽救患者的生命。

在本节中,作者强调选择用于评估作者提出方法的任务,并将其与其他以挑战性著称的方法进行比较。本研究的主要目标是评估各种最近提出的方法的泛化能力,并将其性能与作者自己的方法进行比较。具体而言,作者的目标是研究作者提出的方法在多种任务中的泛化能力,并将其与最先进方法的性能进行比较。作者的方法特别针对提供医疗成像分割任务的效率解决方案。

3 The Proposed Approach

作者提出的病变器官分割方法如图1所示。作者引入了D-TrAttUnet架构,这是一种具有U-Net结构的新型复合CNN-Transformer架构,利用了注意力门控(AG)。在图2中,作者提供了D-TrAttUnet架构的详细说明。作者D-TrAttUnet的关键特性在于其编码器,它同时使用 Transformer 层和ResBlocks(ResB)来提取丰富多样的特征。鉴于医学成像病理在形状、大小和位置上的高度可变性(Sun, Zhang, Li and Xu 2020;Kumar Singh等 2021;Laradji等 2021),从医学图像中捕捉到多样的特征至关重要。为了实现这一点,作者的方法结合了使用CNN滤波局部提取的特征以及通过 Transformer 层从图像块全局聚合的特征。这使得模型能够有效处理医学病理的多样化特性,并提供有效的分割。

在作者提出的D-TrAttUnet中,编码器有两条路径:类似U-Net的路径和Transformer路径。输入图像,其中、和分别是高度、宽度和输入通道,被送入两条路径中。

Transformer Encoder

在Transformer编码器中,输入张量被划分为均匀的、不重叠的块,记作,其中每个块的大小为,是由除以得到的总块数。这些块经过线性变换,记为,将它们投影到一个嵌入空间中,其中表示嵌入空间的维度。嵌入的计算如下:

然后,这些嵌入特征被送入Transformer层,类似于之前的工作Dosovitskiy等人(2020年);Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser和Polosukhin(2017年)。每个Transformer层包括两个Layernorm(LN)块,一个多头自注意力(MSA)块,一个多层感知机(MLP)块,以及残差连接。对于第个Transformer层,嵌入的输入特征处理如下:

这里,LN()表示Layernorm块的输出,MSA表示多头自注意力块。MSA操作定义为:

其中是自注意力头,是SA特征的权重矩阵。

然后输出进一步处理如下:

其中包括两个具有GELU非线性的线性层。第一个线性层()将投影到,然后第二个线性层()将特征投影到一个维空间。

在作者的方法中,作者设置,,,,像素。因此,对于的图像分辨率,块的数量为。

Encoders Fusion Module

为了从不同的Transformer层(阶段)获取多尺度特征,作者精心选择了来自第4、7、10和12层的嵌入特征,分别表示为、、和。选择不同 Level 的Transformer特征的决定,允许提取多样化和信息丰富的特征,而不是使用位于相近层的特征,后者可能在特征上有很多相似之处。通过关注这些选择的层,作者的目标是捕捉输入数据中固有的尺度范围和复杂性。这种策略旨在有效提高网络处理医学成像背景下变化的能力。所选层产生的嵌入具有一致的形状,即196 768。在送入解码器之前,这些特征会通过基于CNN的操作进行过滤和融合,具体如下所述。

为了使Transformer的中间结果(向量序列)具有3D形状,被 Reshape 为14 14 768,因为14 14 196。这些 Reshape 的特征对于、、和分别表示为、、和。为了将Transformer特征注入D-TrAttUnet的不同层并将它们与CNN层结合,引入了如图3-b所示的UpResBlock(UpR)。UpR包括线性上采样,然后是如图3-a所示的ResBlock(ResB)。ResB由两个3乘3卷积块组成,每个卷积块后跟批量归一化和ReLU激活函数。此外,两个卷积层的输出与通过残差连接传递的输入相加,残差连接包括1乘1卷积块,后跟批量归一化和ReLU激活函数,如方程(5)和(22)所示:

其中,和。

如图2所示,编码器融合模块包含四层。第一层使用ResB处理输入图像,得到第一特征图,如方程(7)所示。

编码器融合模块包括四个层次的特征提取和融合过程,得到表示为,,和的特征集。这些特征是通过提取和融合CNN和Transformer特征获得的。具体来说,第一个编码器融合特征()是通过将CNN特征()与第一Transformer层的特征()结合生成的,如方程(23)所示。这个过程包括将通过一个最大池化层(MP),并将通过三个连续的UpR块()以捕获与最大池化的特征对齐的高级特征。然后将得到的CNN和Transformer特征进行拼接,并通过ResB块处理,以提取包含两种特征类型的更丰富的特征。

随后,第二个编码器融合特征()是通过将前一个编码器融合特征()与第二Transformer层的特征()融合生成的,如方程(24)所述。这包括对Transformer特征()应用两个UpR块,对进行最大池化,然后将结果拼接并通过ResB块处理。类似地,是通过将与第三Transformer层的特征()融合得到的,使用最大池化、UpR块、拼接和ResB块的组合,如方程(10)所示。最后,最终的编码器融合特征()是通过将与第四Transformer层的特征()合并形成的,涉及两个ResB块、最大池化和拼接,如方程(11)所示。总之,这个过程描述了每个特征集(,,和)是如何通过一系列融合和转换操作获得的,利用了不同阶段的CNN和Transformer特征。

翻译为:

残差块拼接上采样最大池化

残差块拼接残差块最大池化

Dual-Decoders

在作者的提出的D-TrAttUnet架构中,作者采用了双解码器。如图2所示,第一个解码器的主要目标是分割病变,无论是骨转移还是Covid-19感染。同时,第二个解码器专注于分割感兴趣的器官,例如在Covid-19病例中的肺,在骨转移(BM)情况下的骨。在解码阶段中加入专门用于器官分割的解码器的原因有两方面:首先,这种设计有助于编码器集中在器官内部,这些器官是感染的主要位置,两个任务损失影响共同的编码器。其次,它迫使模型区分CT扫描中的各种组织,这是一个关键考虑因素,因为器官外部的组织可能表现出与感染相似的视觉特征。这种在解码阶段策略性地包含多任务处理,并通过辅助任务促进器官分割,旨在鼓励编码器学习更多样化的特征,从而提高分割任务的效率。

编码器的瓶颈特征图()被送入两个解码器的第一个扩展层。首先,使用线性变换对进行上采样以获得,然后如公式(12)所示传递给两个解码器。另一方面,编码器的特征图和通过 Short-Cut 方式送入D-TrAttUnet的两个解码器层,如图2所示。按照Oktay等人(2018)的Att-Unet架构,每个解码器使用三个线性上采样层(US)、四个解码层、四个注意力门和四个ResBlocks,如下方程所示:

同样,对于器官分割解码器,作者得到了 、、 和 。最后,使用两个1乘1的卷积层来匹配 和 的特征图维度,以预测病变和器官 Mask ,其中器官和二值分割由单一通道组成,而多类别Covid-19分割由三个通道组成。

注意力门(AG)如图4 等人(2018)所示,定义如下:

其中 和 是两个线性变换,分别将 和 中的通道 和 转换为 。 包括 ,其后是批量归一化(BN)和sigmoid激活函数,用于学习每个像素的空间注意力系数 。得到的空间系数 应用于编码器 的跳过特征图。

由于作者的方法利用了具有双解码器的多任务方法,所使用的损失函数定义为:

其中 和 分别是病变分支的交叉熵(CE)和Dice损失, 是与器官分割分支相关的使用交叉熵损失函数的损失。权重 和 分别设置为0.5和0.5,而 对于次要任务损失(器官分割)设置为0.3。

4 Datasets

为了评估作者方法的表现,作者使用了三项任务。首先,对于骨转移(BM)分割,作者使用了Afnouch等人(2023年)的BM-Seg数据集。该数据集包含23名被诊断为骨转移的患者的23个CT扫描数据。总共1517个切片由三名专家放射科医生确认显示骨转移感染,并对骨转移和骨区域 Mask 进行了标记。作者遵循了Afnouch等人(2023年)描述的同样划分,其中引入了五折交叉验证评估场景。

对于Covid-19感染分割任务,作者评估了二值和多类分割任务,如表格1所总结。数据集1 RADIOLOGISTS(2019)包含100个显示Covid-19感染的切片,包括肺和多种感染 Mask (GGO和Consolidation)。数据集2 RADIOLOGISTS(2019)由九个3D CT扫描组成,总计829个切片,其中373个切片指示Covid-19感染。专家放射科医生标记了该数据集,提供了肺、二值感染(未感染和感染)以及多类标签(未感染、GGO和Consolidation)的 Mask 。

对于二值分割任务,作者将数据集2划分为70%-30%的比例用于训练和测试。对于多类分割任务,作者使用数据集2和50%的数据集1(50个切片)进行训练,而剩余的50个切片的数据集1用于测试。表格2总结了GGO和Consolidation类在训练和测试划分中的切片数量。如表所示,每个类别的切片数量有限,对于多类分割来说是一个重大挑战。

对于腺体和核分割任务,作者分别使用了腺体分割数据集(GlaS)Sirinukunwattana, Pluim, Chen, Qi, Heng, Guo, Wang, Matuszewski, Bruni, Sanchez等人(2017年)和MoNuSeg数据集Kumar, Verma, Anand, Zhou, Onder, Tsougenis, Chen, Heng, Li, Hu等人(2019年)。腺体分割数据集(GlaS)包含165幅图像,而MoNuSeg数据集包含44幅图像。按照Wang等人(2022年)的做法,每个任务执行三次五折交叉验证,并考虑平均值和标准差结果。

5 Experiments and results

Experimental Setup

为了进行作者的实验,作者主要使用了PyTorch Paszke、Gross和Massa(2019)的深度学习库。每种架构都使用初始学习率为0.1和Adam优化器进行100个周期的训练。批量大小设置为16张图像。所使用的机器配备了NVIDIA RTX A5000 GPU,拥有24 GB内存,11代Intel(R) Core(TM) i9-11900KF(3.50GHz)CPU和64GB RAM。使用了三种主动数据增强方法;随机旋转角度在和之间,概率为10%,以及随机水平翻转和垂直翻转,每种翻转的概率为20%。

Evaluation Measurements

为了将作者方法的表现与最先进的方法进行比较,作者使用了以下评估指标:F1分数(F1-S)、Dice系数(D-S)、交并比(IoU)和HD95,它们的定义如下:

其中 是真正例, 是真负例, 是假正例, 是假负例,这些都关联到测试图像的分割类别。

Dice系数是一个宏观指标,对于 张测试图像的计算如下:

其中 , , 和 分别是第 张图像的真正例、真负例、假正例和假负例。最后,HD95指标是使用Hausdorff距离计算的距离集合的95百分位数。对于真实 Mask (G)和相应的预测 Mask (M),HD95定义为:

其中Hausdorff距离 定义为:

其中 是集合 和 中的元素 和 之间的距离度量。sup是上确界(最小上界)操作,inf是下确界(最大下界)操作。

对于COVID-19任务,作者使用了这四个指标进行评估,因为所有结果都来自作者的实验。另一方面,对于BM分割和Gland及Nucleus分割,作者遵循了Afnouch等人(2023年)和王等人(2022a年)使用的相同指标,因为这两个任务的比较结果是来自这两篇论文的。

Bone-Metastasis Segmentation

遵循Afnouch等人(2023年)的研究,作者展示了作者方法的全面性能分析,并与现有方法进行了比较。值得注意的是,原始研究并未探讨基于 Transformer (transformer)的模型。作者的研究扩展到四种 Transformer 架构的性能,分别是SwinUnet(Cao, Wang, Chen, Jiang, Zhang, Tian and Wang, 2022年)、MTUnet(Wang等人,2022b)、MISSFormer(Huang, Deng, Li, Yuan and Fu, 2022年)和UCTransNet(Wang等人,2022a)。表3总结了五折交叉验证的结果,展示了F1分数、Dice系数和IoU指标。作者的方法在这些指标上表现出明显的优势,即使与EDAUnet++ f-nouch等人(2023年)的五模型集成相比也是如此。作者的方法在F1分数上超过了EDAUnet++ 1.11%,在Dice系数上超过了1.44%,在IoU上超过了1.66%,突显了作者方法的增强性能和计算效率。与基于 Transformer 的架构相比,作者的方法一致优于它们,其中UCTransNet成为最强劲的竞争者。然而,SwinUnet和MTUnet的表现相对较弱,这引发了对某些 Transformer 架构泛化能力的担忧。进一步的见解详见表4,它展示了逐折的F1分数结果及其平均值,再次确认了作者方法的持续优势。

Covid-19 Segmentation

对于Covid-19的分割,研究了二分类和多分类任务。

5.4.1 Binary Segmentation

在本节中,作者评估了所提出的D-TArtUnet的性能,并将其与U-Net Ronneberger等人(2015年)、Att-Unet Oktay等人(2018年)、Unet++ Zhou等人(2018年)、CopleNet Wang等人(2020年)、AnamNet Paluru等人(2021年)、SCOATNet Zhao等人(2021年)以及四种最近的基于Transformer的架构(SwinUnet Cao等人(2022年)、MTUnet Wang等人(2022b)、MISSFormer Huang等人(2022年)和UCTransNet Wang等人(2022a年)进行了比较。需要注意的是,每次实验都重复了五次。所展示的结果是五次运行的平均值标准差。

表5展示了在Dataset_2上进行二元Covid-19分割所获得的结果,其中考虑了F1分数、Dice系数、IoU和HD95指标。比较结果显示,与基准架构、最先进的方法以及基于Transformer的架构相比,所提出的方法具有优势。更具体地说,作者提出的D-TrAttUnet方法在F1分数上比最佳比较方法(CopleNet)提高了13.5%,在Dice系数上比SwinUnet提高了7.64%,在IoU上比CopleNet提高了14.9%。通过查看五次实验的标准差,作者注意到U-Net、Unet++、Att-Unet、SCOATNet、CopleNet、MTUnet和SwinUnet的性能并不稳定。只有AnamNet和MISSFormer方法具有合理的标准差,然而,AnamNet在Dataset_2上的性能是最低的。从Dataset_2的结果来看,作者发现D-TrAttUnet在不同运行中实现了最佳性能且表现稳定。

从这些观察中,作者得出结论,所提出的双重解码器Transformer-CNN架构能够从少量数据中学习,因为在编码阶段提取并融合了CNN和基于Transformer的特征,这为感染提供了更丰富的全局和局部特征。特别是在像Covid-19疾病这样的大流行期间,能够从少量数据中学习的能力至关重要。

Multi-classes Segmentation

表6总结了作者提出的D-TrAttUnet架构及比较方法在多类Covid-19分割中取得的结果。对于GGO感染类型,作者的方法优于比较架构。值得注意的是,许多比较架构取得了类似的结果,UCTransNet架构略有优势。作者的架构比最佳的比较架构(UCTransNet)在F1得分上提高了3.15%,在Dice得分上提高了4.89%,在IoU上提高了3.61%。对于Consolidation感染类型,所有方法的性能相对于GGO都有所下降。这主要是因为Consolidation感染类型不如GGO常见,如表2所示。此外,特别是在Consolidation感染类型中,由于感染通常具有外周或后部分布,如Kumar Singh等人(2021);Laradji等人(2021)所述,区分Consolidation和肺外组织可能具有挑战性。表6的结果表明,作者的方法在Consolidation分割方面也表现出色。具体来说,提出的D-TrAttUnet架构比最佳的比较架构UCTransNet在F1得分上高出8.73%,在Dice得分上高出4.6%,在IoU上高出8.08%。这些结果强调了作者的方法在解决类别不平衡分布和有限训练数据的挑战方面的有效性,这准确反映了Covid-19感染的实际情况。

Gland and Nucleus Segmentation

表4:针对BM分割的五折交叉验证实验的F1得分。

作者对所提出的混合编码器TrAttUnet在两个不同任务上进行了评估:使用GlaS数据集的腺体分割和利用MoNuSeg数据集的核分割。在这个评估中,作者只关注所提出的编码器,省略了器官分割,并为病变分支仅采用了交叉熵损失()和Dice损失()的组合。作者在表7中总结的结果显示了D-TrAttUnet与Wang等人(2022年)报道的现有技术水平相比的优越性能。这些发现强调了作者的方法在各类医学成像任务中的效率和泛化能力。### 消融研究

本节深入分析了所提出的D-TrAttUnet方法中各个组成部分的重要性。为此,作者选择对Covid-19分割任务进行消融研究,包括二分类和多分类场景,以验证每个组件的重要性。表8是对Dataset_2在二值分割上获得结果的简要总结。具体来说,作者关注评估注意力门(AG)、双解码器(DD)和Transformer编码器(TrEc)的贡献。通过检查实验1和实验2,可以明显看出,在应用于Dataset_2时,加入注意力门可以增强U-Net架构的性能。随后,实验3涉及从作者的方法中移除注意力门。将实验3的结果与作者所提出的D-TrAttUnet架构进行比较,可以发现注意力门在作者框架中的极端重要性。值得注意的是,在Dataset_2上的结果显示,F1得分提高了4.07%,Dice得分提高了0.4%,IoU提高了4.91%,这突显了它在提高分割结果方面的重大作用。此外,在编码阶段加入Transformer组件有助于更鲁棒的特征提取。这些丰富的特征随后通过跳跃连接传递到注意力门。因此,注意力门可以从编码器的特征和之前解码器层的上采样特征中进行更明智的选择,进一步增强了分割过程。

在实验4中(参见表8),作者探讨了当从架构中省略 Transformer 编码器组件时的结果。这项调查显示出结果的明显下降,突显了 Transformer 编码器的重大影响。具体来说,在没有 Transformer 编码器的情况下,数据集_2上的性能有所下降,F1分数、Dice分数和IoU等指标分别下降了11%、6.47%和12.58%。这描绘了所提出混合编码器的有效性,该编码器在编码阶段结合了 Transformer 和卷积层,特别是在数据可用性有限的情况下,如大流行期间。此外,实验5和6之间的比较(如表8所示)显示了利用双重解码器的重要性。为肺部分割引入第二个解码器同时进行感染分割,导致性能明显提升,进一步突显了这种架构选择的重要性。

表9为多类Covid-19分割的消融实验提供了洞察。与作者在二元分割中的先前消融研究类似,作者检查了三个关键组件的重要性:注意力门(AG)、双重解码器(DD)和 Transformer 编码器(TrEc)。分析U-Net和AttUnet(实验1和2)在多类分割中的结果,揭示了注意力门对不同类别(实变和毛玻璃样变)的差异化影响。对于实变分割,注意力门被证明是非常有益的,F1分数提高了8.7%。然而,对于毛玻璃样变分割,加入注意力门导致F1分数和IoU等指标的性能略有下降。

相比之下,作者提出的方法在实变和毛玻璃样变分割中一致地从注意力门中受益(实验3和6)。从这两个实验中注意到,在作者的方法中包含AG增强了毛玻璃样变的分割结果,F1分数提高了6.84%,Dice分数提高了8.51%,IoU提高了7.75%。同样,对于实变,注意力门使F1分数、Dice分数和IoU分别提高了7.55%、4.82%和7.11%。这强调了注意力门在识别来自所提混合编码器的关键特征区域方面的关键作用,特别是在多类分割这一复杂任务中。

检查表9的第四行和第五行,可以明显看出,Transformer编码器和双重解码器是作者提出的D-TrAttUnet架构中的关键组件。它们的加入带来了性能的提升,在GGO(磨玻璃影)和凝固性分割方面都有所改进。添加Transformer编码器和双重解码器在F1分数上有显著提升,特别是在凝固性分割的情况下,分别实现了大约9.11%和12.11%的增强。

最后,最后一行显示,将作者方法中所有提出的组件结合起来可以带来最佳性能,特别是对于凝固性分割,超过了 Baseline 结果。这个全面的消融研究,包括表8和表9中的二元和多类新冠病毒分割,强调了方法中每个组件的重要性。

6 Qualitative Evaluation and Discussion

Visual Comparison

在作者的研究中,作者不仅将作者的方法与最先进的技术架构进行了比较,还为三个任务提供了预测 Mask 的可视化:BM分割、二值化新冠病毒分割和多类别新冠病毒分割。这些可视化分别见图5、图6和图7。

对于BM分割任务,作者将作者方法生成的预测 Mask 与三种竞争方法(图5)进行了比较,这些方法在表3中显示出是表现最佳的。这些竞争方法包括MISSFormer Huang等人(2022年)、UCTransNet Wang等人(2022年)和EDAUnet++ Afnouch等人(2023年)。在前两个示例中,作者检查了骨转移感染了切片内所有骨区域的情况。仔细检查预测 Mask 揭示了大多数方法成功突显了感染区域。然而,显然MISSFormer和EDAUnet++在准确捕捉分割细节方面存在困难。相比之下,作者的方法和UCTransNet在匹配 GT Mask 中的细节方面表现出色。剩下的三个示例代表了只有部分骨骼被BM感染的切片,这是BM分割特别具有挑战性的方面。在第三个示例中,比较方法错误地将一部分骨骼作为骨转移病变进行分割。相比之下,作者的方法在这些情况下准确地匹配了 GT Mask 。最后两个示例展示了作者方法有效捕捉复杂病变细节的能力,这证明了作者提出的复合编码器有效集成了Transformer和CNN特征。总之,可视化和比较证实了作者的方法在BM分割中的有效性,尤其是在具有挑战性的情况下,突显了其高效捕捉复杂病变细节的能力。

另一方面,对于二值化和多类别新冠病毒感染分割的可视化 Mask 比较方法有:Unet++ Zhou等人(2018年)、CoyleNet Wang等人(2020年)、MISSFormer Huang等人(2022年)和UCTransUnet Wang等人(2022年),以及多类别分割任务的Att-Unet Oktay等人(2018年)、SCOATNet Zhao等人(2021年)、MISSFormer Huang等人(2022年)和UCTransUnet Wang等人(2022年),这些方法在与作者提出的方法的表现上具有竞争力(见第5.4节)。

图6中的四个可视化示例来自数据集_2的二值分割实验。第一个示例展示了一个感染已扩散到双肺的情况,右肺底部表现为毛玻璃影和小的实变区域。Unet++ Mask 与 GT (GT)的比较显示,Unet++架构未能分割大多数感染区域。与Unet++相比,CoyleNet、MISSFormer和UCTransNet的 Mask 显示出改进的分割性能。然而,这些架构仍然遗漏了一些感染区域,或将肺组织错误地划分为感染。作者提出的方法的 Mask 在区域数量及其全局形状方面与GT的高度相似。第二个和第三个示例是感染呈外周分布的情况。可视化的 Mask 显示,提出的D-TrAttUnet是与 GT 最一致的架构。第四个示例展示了一个严重病例,感染已扩散到大多数肺区域。可视化的 Mask 显示,作者提出的架构优于比较架构。

图7由作者方法和比较架构用于多类别新冠病毒分割的三个示例 Mask 的可视化组成。第一个示例展示了一个毛玻璃影和实变的混合案例,其中大多数感染区域由实变和小毛玻璃影区域组成,这些区域附着在实变区域上。与比较架构的 Mask 不同,作者方法的 Mask 在实变和毛玻璃影类别方面与 GT Mask 具有高度相似性。第二个和第三个示例也代表了双肺中同时存在毛玻璃影和实变的情况。具有实变的感染区域主要位于双肺的下叶,而毛玻璃影则在双肺中以周边和后部分布。这些示例的 Mask 确认了第一个示例中的观察结果,因为D-TrAttUnet的预测 Mask 在GGO和实变两种感染类型方面与GT Mask 高度相似。

视觉探索无疑证明了作者提出的方法在BM和新冠病毒分割任务中的鲁棒性和精确性,明确展示了其在捕捉关键细节并超越现有最先进竞争方法方面的有效性。

Model Size and Inference Time Comparison

在本节中,作者研究了作者方法与其它方法在参数数量、FLOPs数量以及推理时间方面的比较。表10总结了这些比较。值得注意的是,作者方法展示的参数数量和FLOPs与许多最先进的架构相似。与U-Net和AttUnet等 Baseline 架构相比,作者提出的架构由于包含了混合编码器,其参数数量更多,该混合编码器在处理复杂任务时,在非常有限的训练数据下已证明其效率。

此外,值得注意的是,在测试阶段可以省略用于器官分割任务的第二个解码器。由于两个解码器是并行操作的,并且彼此完全独立,移除器官分割解码器不会影响整体功能。尽管参数数量较多,但作者的方法仍然能提供有竞争力的推理时间。实际上,对于批量大小为50个切片的推理时间不到半秒,使其适用于实时场景。

7 Conclusion

在本文研究中,作者介绍了一种新颖的方法,用于医学成像分割任务,结合了卷积神经网络(CNNs)和Transformers的力量。

作者提出的D-TrAttUnet编码器融合了CNN和Transformer层,以提取对精确医学成像分割至关重要更为全面的局部、全局和长距离依赖特征。值得注意的是,许多医学病变针对一个或多个身体器官。因此,作者的D-TrAttUnet架构特点是一个双重解码器系统,能够同时分割病变和器官区域。每个解码器包括注意力门、线性上采样和卷积块。

为了评估作者方法的表现,作者着手解决了一系列具有挑战性的医学成像分割任务。这些任务包括骨转移、二进制和多类COVID-19感染分割,以及腺体和核分割。作者提出的D-TrAttUnet架构在骨转移和COVID-19分割任务中一致优于现有最佳方法。此外,作者引入的混合编码器在腺体和核分割中表现出色,超过了现有的最佳解决方案。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 Introduction
  • 2 Related Work
    • CNN Segmentation Architectures
      • Transformers in CV
        • Introducing the Evaluated Medical Imaging Segmentation Tasks
        • 3 The Proposed Approach
          • Transformer Encoder
            • Encoders Fusion Module
              • Dual-Decoders
              • 4 Datasets
              • 5 Experiments and results
                • Experimental Setup
                  • Evaluation Measurements
                    • Bone-Metastasis Segmentation
                      • Covid-19 Segmentation
                        • 5.4.1 Binary Segmentation
                          • Multi-classes Segmentation
                            • Gland and Nucleus Segmentation
                            • 6 Qualitative Evaluation and Discussion
                              • Visual Comparison
                                • Model Size and Inference Time Comparison
                                • 7 Conclusion
                                相关产品与服务
                                NLP 服务
                                NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
                                领券
                                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档