首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

医学影像SCI一区论文分享----UNETR++:深入研究高效和准确的3D医学图像分割

医学影像SCI一区论文--UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation

动动您的小手指,关注一下吧!

01 摘要

由于transformer模型的成功,最近的工作研究了它们在三维医学分割任务中的适用性。在转换器模型中,与基于局部卷积的设计相比,自注意机制是努力捕获远程依赖关系的主要构建块之一。然而,自注意运算具有二次复杂度,这被证明是一个计算瓶颈,特别是在体积医学成像中,其中输入是三维的,有许多切片。在本文中,作者提出了一种名为unetr++的三维医学图像分割方法,该方法既提供了高质量的分割掩模,又在参数、计算成本和推理速度方面具有效率。模型设计的核心是引入一种新的高效成对注意(EPA)块,该块使用基于空间和通道注意的一对相互依赖的分支有效地学习空间和通道方面的判别特征。作者的空间注意力公式是有效的,并且相对于输入具有线性复杂性。为了实现空间分支和以通道为中心的分支之间的通信,模型共享查询和键映射功能的权重,这提供了一个互补的好处(配对关注),同时也降低了复杂性。作者对Synapse、BTCV、ACDC、BraTS和Decathlon-Lung这五个基准进行了广泛的评估,揭示了在效率和准确性方面的贡献的有效性。在Synapse上,作者的UNETR++设置了一个新的状态,骰子得分为87.2%,同时显着减少参数和FLOPs超过71%,与文献中最好的方法相比。

图1 左:基线UNETR[1]与UNETR++在Synapse上的定性比较。

02 拟解决的问题

1. 现有挑战:传统的基于卷积神经网络(CNN)的方法在处理3D医学图像分割时,尽管在参数效率上表现不错,但因操作数量多导致浮点运算(FLOPs)增加,推理速度变慢。而基于Transformer的方法虽然能够捕捉全局依赖关系,但存在模型复杂度高和自注意力操作的二次复杂度问题,特别是在处理具有大量切片的体积医学图像时。

2. 计算瓶颈:自注意力机制的二次复杂度在3D图像分割中尤为突出,导致计算成本高昂。

03 创新点

1. 高效成对注意力(Efficient Paired Attention, EPA)块:提出了一种新颖的注意力模块,通过空间和通道注意力的两个分支来有效学习空间和通道上的区分性特征。这种设计通过共享查询和键映射函数的权重,实现了空间和通道分支之间的通信,同时降低了模型复杂度。

2. 线性复杂度的空间注意力:通过将键和值投影到较低维度的空间,将自注意力计算的复杂度从二次降低到线性,从而提高了计算效率。

3. 参数和计算成本的显著降低:在保持高精度的同时,UNETR++在参数数量、计算成本和推理速度方面都有显著的效率提升。

04 方法论

A. 整体架构

编码器-解码器结构:UNETR++采用了分层的编码器-解码器结构,其中编码器逐步降低特征图的分辨率,解码器逐步恢复分辨率。这种设计有助于在不同阶段捕获不同尺度的特征。

跳跃连接:编码器和解码器之间通过跳跃连接(skip connections)相连,这有助于在解码过程中恢复丢失的空间信息,从而生成更精确的输出。

图2 概述UNETR++方法与分层编码器-解码器结构。3D补丁被馈送到编码器,其输出然后通过跳过连接连接到解码器,随后是卷积块,以产生最终的分割掩码。本文设计的重点是引入一个有效的配对注意(EPA)块。每个EPA块使用具有共享关键字查询和不同值层的并行注意力模块执行两个任务,以有效地学习丰富的空间通道特征表示。如EPA方图(右图)所示,第一个(顶部)注意模块通过投影特征的加权和以线性方式聚合空间特征以计算空间注意图,而第二个(底部)注意模块强调通道中的依赖关系并计算通道注意图。最后,将两个注意模块的输出融合并传递到卷积块中以增强特征表示,从而得到更好的分割掩码。

B. 高效成对注意力块

空间注意力(Spatial Attention):通过将键(keys)和值(values)投影到低维空间来减少自注意力的复杂度,从而实现线性复杂度的自注意力计算。

通道注意力(Channel Attention):通过在通道维度上应用点积操作,学习通道特征图之间的相互依赖性,以捕获不同通道之间的相关性。

共享权重:在空间和通道注意力模块之间共享查询(Q)和键(K)的权重,以实现两个分支之间的互补优势,并减少网络参数的数量。

C. 损失函数

混合损失:UNETR++使用软Dice损失和交叉熵损失的组合,以同时利用两种损失函数的优势。

D. 实验设置

数据集:在多个数据集上进行实验,包括Synapse、BTCV、ACDC、BraTS和Decathlon-Lung。

评估指标:使用Dice相似系数(DSC)、95% Hausdorff距离(HD95)、归一化表面Dice(NSD)和平均表面距离(MASD)等指标评估模型性能。

实现细节:使用Pytorch和MONAI库实现UNETR++,采用相同的输入尺寸、预处理策略和训练损失,确保与其他方法的公平比较。

05 部分实验结果

图3 UNETR++与基线UNETR的定性比较。基线努力正确分割不同的器官(用红色虚线框标出)。UNETR++通过对器官的准确分割,实现了良好的分割性能。放大观看效果最好。

图4 多器官分割任务的定性比较。将UNETR++与现有的方法:UNETR, Swin UNETR和nnFormer进行比较。现有的方法难以正确分割不同的器官(用红色虚线框标出)。UNETR++通过对器官的准确分割,实现了良好的分割性能。放大观看效果最好。

图5 ACDC数据集的定性比较。将UNETR++与现有的方法UNETR和nnFormer进行比较。值得注意的是,现有的方法很难正确分割不同的器官(用红色虚线框标记)。UNETR++通过对器官的准确分割,实现了良好的分割性能。放大观看效果最好。

图6 基线UNETR[1]与UNETR++在Decathlon-Lung数据集上的定性比较。放大后的区域用绿色方框标出。与基线相比,unetr++在分割肿瘤方面具有更好的分割效果和更少的假阳性。放大观看效果最好。

图7 UNETR++与空间注意(SA)、通道注意(CA)和拟议的EPA块的定性比较。绿色虚线框表示扩大的区域,红色虚线框表示未分割,蓝色虚线框表示正确分割。

表1 最先进的腹部多器官突触数据集比较。

表2 多器官分割BTCV测试集的现状比较。

表3 brats(脑肿瘤分割)与十项全能肺数据集的比较。UNETR++在(dsc、nsd、hd95和masd)方面取得了良好的分割效果。

06 基于本文可能的改进之处

数据增强和合成技术:

尽管UNETR++通过其EPA块有效地处理了空间和通道注意力,但医学图像分割任务中的数据多样性和样本不平衡问题仍然是一个挑战。可以进一步探索更先进的数据增强技术,如合成医学图像生成,以增加模型的泛化能力,特别是在处理罕见或异常的器官形状和大小时。

多模态融合策略:

医学图像通常来自不同的成像模态,如CT、MRI、PET等。虽然UNETR++在单一模态上表现出色,但多模态数据融合可以提供更丰富的信息。研究更高效的多模态融合方法,以利用不同模态之间的互补信息,可能会进一步提高分割精度。

模型的可解释性和鲁棒性:

在医学领域,模型的可解释性对于理解其决策过程至关重要。可以探索集成可解释性工具和技术,以便医生和研究人员能够理解模型的预测。此外,提高模型的鲁棒性,使其能够更好地处理图像中的噪声和伪影,也是未来工作的一个重要方向。

跨尺度和多分辨率学习:

医学图像中的结构可能在不同的尺度上变化显著。开发能够同时捕获微观细节和宏观结构的跨尺度特征学习策略,可能会进一步提升模型的性能。这可能涉及到多分辨率处理或者分层特征提取机制的改进。

版权说明

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OM2qrHhpB7vUtu9ahktlRLkg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券