首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Nature 子刊: segment Anything in Medical Images 分享

Nature 子刊:Segment Anything in Medical Images 分享

01 摘要

医学图像分割是临床实践的重要组成部分,有助于准确诊断,治疗方案设计和疾病监测。然而,现有的方法往往是针对特定的模式或疾病类型量身定制的,缺乏在医学图像分割任务的各种范围内的通用性。本文提出一个基础模型MedSAM,旨在通过实现通用医学图像分割来弥合这一差距。该模型是在一个大型医学图像数据集上开发的,该数据集包含1570263个图像掩模对,涵盖10种成像方式和30多种癌症类型。本文对86个内部验证任务和60个外部验证任务进行了综合评估,证明了MedSAM比模态专家模型更好的准确性和鲁棒性。通过在广泛的任务范围内提供准确有效的细分,MedSAM在加速诊断工具的发展和治疗规划的个性化方面具有巨大的潜力。

论文地址:

https://www.nature.com/articles/s41467-024-44824-z

02 引言

分割是医学成像分析中的一项基本任务,涉及识别和描绘各种医学图像(如器官、病变和组织)中的感兴趣区域(ROI)。准确的分割对于许多临床应用至关重要,包括疾病诊断、治疗计划和疾病进展监测。人工分割长期以来一直是描绘解剖结构和病理区域的黄金标准,但这一过程耗时,劳动密集,并且通常需要高度的专业知识。半自动或全自动分割方法可以显著减少所需的时间和人工,提高一致性,并能够对大规模数据集进行分析。

基于深度学习的模型在医学图像分割中显示出巨大的前景,因为它们能够学习复杂的图像特征,并在各种任务中提供准确的分割结果,从分割特定的解剖结构到识别病理区域。然而,当前许多医学图像分割模型的一个显著限制是它们的任务特异性。这些模型通常是为特定的分割任务设计和训练的,当此类模型应用于新任务或不同类型的成像数据时,它们的性能可能会显著下降。这种通用性的缺乏对这些模型在临床实践中的广泛应用构成了实质性的障碍。相比之下,自然图像分割领域的最新进展见证了分割基础模型的出现,例如分割任何模型(Segment Anything Model,SAM)和分割所有地方的多模态提示(Multi-modal prompt all at once),在各种分割任务中展示了卓越的多功能性和性能。

医学图像分割中对通用模型的需求越来越大:可以训练一次然后应用于广泛的分割任务的模型。这样的模型不仅在模型能力方面表现出更高的通用性,而且还可能导致跨不同任务的更一致的结果。然而,由于自然图像与医学图像的显著差异,分割基础模型(如SAM)在医学图像分割中的适用性仍然有限。本质上,SAM是一种提示分割方法,它需要点或边界框来指定分割目标。这与传统的交互式分割方法类似,但SAM具有更好的泛化能力,而现有的基于深度学习的交互式分割方法主要集中在有限的任务和图像模态上。

许多研究已经将开箱即用的SAM模型应用于典型的医学图像分割任务和其他具有挑战性的场景。例如,现有的研究对不同医学图像阵列的SAM进行了全面评估,强调SAM主要在具有明显边界特征的目标上取得了令人满意的分割结果。然而,该模型在分割弱边界或低对比度的典型医学目标时存在很大的局限性。根据这些观察结果,本文进一步引入了MedSAM,这是一种改进的基础模型,可以显著提高SAM对医学图像的分割性能。MedSAM通过在一个前所未有的数据集上对SAM进行微调来实现这一目标,该数据集拥有超过100万个医学图像掩码对。

本文通过86项内部验证任务和60项外部验证任务的综合实验,涵盖了各种解剖结构、病理条件和医学成像方式,对MedSAM进行了全面的评估。实验结果表明,MedSAM始终优于最先进的(SOTA)分割基础模型,同时实现了与来自相同模态的图像训练的专家模型相当的性能,甚至超过了专家模型。这些结果突出了MedSAM作为多功能医学图像分割新范例的潜力。

03 结果

01. MedSAM: afoundation model for promptable medical image segmentation

MedSAM旨在实现通用医学图像分割的基础模型。构建这种模型的关键是适应成像条件、解剖结构和广泛的病理条件变化的能力。为了应对这一挑战,本文编制了一个多样化和大规模的医学图像分割数据集,其中包含1,570,263对医学图像掩模,涵盖10种成像方式,超过30种癌症类型和多种成像方案(图1和补充表1-4)。这个大规模的数据集允许MedSAM学习丰富的医学图像表示,捕获不同模式的广泛解剖学和病变。图2a概述了数据集中不同医学成像模式的图像分布,并按其总数进行了排名。很明显,计算机断层扫描(CT)、磁共振成像(MRI)和内窥镜检查是主要的检查方式,反映了它们在临床实践中的普遍性。CT和MRI图像提供三维身体结构的详细横断面视图,使其成为非侵入性诊断成像不可或缺的工具。虽然内窥镜检查更具侵入性,但它可以对器官内部进行直接的视觉检查,对胃肠道和泌尿系统疾病的诊断证明是非常宝贵的。尽管这些方法很流行,但其他方法如超声、病理、眼底、皮肤镜、乳房、x光检查和光学相干断层扫描(OCT)在临床实践中也发挥着重要作用。这些模式及其相应的分割目标的多样性强调了能够处理与每种模式相关的独特特征的通用和有效的分割模型的必要性。

图1 MedSAM是在一个可以处理不同分割任务的大规模数据集上训练的。该数据集涵盖了各种解剖结构、病理条件和医学成像模式。洋红色的轮廓和掩码覆盖分别表示专家注释和MedSAM分割结果。

图2 数据集中的模态分布和网络架构概览。a. 每种模态的医学图像掩码对数目。b. MedSAM是一种提示式分割方法,用户可以使用边界框来指定分割目标。源数据作为源数据文件提供。

另一个重要的考虑因素是选择适当的分段提示符和网络体系结构。虽然全自动分割基础模型的概念很诱人,但它充满了使其不切实际的挑战。主要的挑战之一是分割任务固有的可变性。例如,给定肝癌CT图像,分割任务可以根据具体的临床情况而变化。一位临床医生可能对肝肿瘤的分割感兴趣,而另一位可能需要对整个肝脏和周围器官进行分割。此外,成像方式的可变性提出了另一个挑战。CT和MR等方式产生3D图像,而x射线和超声波等方式产生2D图像。任务定义和成像模式的这些变化使得能够准确预测和解决不同用户不同需求的全自动模型的设计复杂化。

考虑到这些挑战,本文认为一个更实用的方法是开发一个快速的二维分割模型。该模型可以根据用户提供的提示轻松地适应特定任务,从而提供增强的灵活性和适应性。它还能够通过将3D图像处理为一系列2D切片来处理2D和3D图像。典型的用户提示包括点和边界框,本文在补充图1中展示了一些使用不同提示的分割示例。可以发现,边界框为感兴趣的区域提供了更明确的空间背景,使算法能够更精确地识别目标区域。这与基于点的提示形成鲜明对比,特别是当近似结构彼此相似时。后者可能会引入歧义。此外,绘制边界框是有效的,特别是在涉及多目标分割的场景中。本文遵循SAM中的网络架构,包括一个图像编码器、一个提示编码器和一个掩码解码器(图2b)。图像编码器将输入图像映射到高维图像嵌入空间。提示编码器通过位置编码将用户绘制的边界框转换为特征表示。最后,掩码解码器使用交叉关注融合图像嵌入和提示特征(方法)。

02. Quantitative andqualitative analysis

本文通过内部验证和外部验证来评估MedSAM。具体来说,本文将其与SOTA分割基础模型SAM以及模态专家U-Net和DeepLabV3+模型进行了比较。每个专门的模型都在相应模态的图像上进行训练,从而为每种方法生成10个专门的专家模型。在推理过程中,使用这些专家模型从相应的模态中分割图像,而使用SAM和MedSAM对所有模态的图像进行分割。内部验证包含86个分割任务(补充表5-8和图2),图3a显示了四种方法的这些任务的中位数dice相似系数(DSC)得分。总体而言,SAM在大多数分割任务中获得了最低的性能,尽管它在一些RGB图像分割任务中表现良好,例如内镜图像中的息肉(DSC: 91.3%,四分位间距(IQR): 81.2-95.1%)分割。这可能是由于SAM在各种RGB图像上进行了训练,并且这些图像中的许多目标由于其不同的外观而相对容易分割。其他三种模型的表现明显优于SAM,并且MedSAM在86个区间验证任务的DSC分数分布比两组专家模型更窄,反映了MedSAM在不同任务中的稳健性。我们进一步将四种模型的同一任务对应的DSC分数与图3b的讲台图联系起来,与箱形图相辅相成。在上半部分,每个彩色点表示用各自的方法在一个任务上获得的DSC中值。对应于相同测试用例的点由一条线连接起来。在下面的部分,每种方法获得排名的频率用柱状图表示。可以发现,MedSAM在大多数任务中排名第一,超过了U-Net和DeepLabV3+专家模型的表现,后者分别排名第二和第三,排名频率很高,相比之下,SAM在几乎所有任务中排名最后。图3c(及补充图9)显示了随机选取的MedSAM获得DSC中位数评分的分割示例,包括CT图像中的肝肿瘤、MR图像中的脑肿瘤、超声图像中的乳腺肿瘤和内镜图像中的息肉。SAM与边界较弱的目标作斗争,容易出现分割不足或分割过度错误。相比之下,MedSAM可以在各种成像条件下准确地分割大范围的目标,甚至比专业的U-Net和DeepLabV3+模型更好。

图3 定量和定性评价结果上的内部验证集。a. 以dice相似系数(DSC)得分为衡量标准的86个内部验证任务的性能分布。框内的中线代表中位数,框的下界和上界分别划定了第25和第75个百分位数。选取须表示四分位数区间的1.5。向上三角形表示最小值,向下三角形表示最大值。b. 用于可视化86个内部验证任务的性能对应关系的平台图。上半部分:每个彩色点表示用各自的方法在一个任务上获得的DSC中位数。对应相同任务的点用一条线连接起来。下图:柱状图表示每种方法获得排名的频率。MedSAM在大多数任务中排名第一。c. 内部验证集上的可视化分割示例。这四个例子分别是计算机断层扫描(CT)、磁共振成像(MRI)、超声波和内窥镜图像中的肝癌、脑癌、乳腺癌和息肉。蓝色:边框提示;黄色:分割结果。品红:专家注释。源数据作为源数据文件提供。

外部验证包括60个分割任务,这些任务要么来自新的数据集,要么涉及未见过的分割目标(补充表9-11和图10-12)。图4a、b分别显示了60个任务的DSC分数中位数分布及其对应关系。尽管SAM在大多数CT和MR分割任务上继续表现较低,但专家模型的表现不再优于SAM(例如,在MR T1加权图像中,SAM、U-Net和DeepLabV3+的右肾分割率分别为90.1%、85.3%和86.4%)。这表明这种专家模型对未知目标的泛化能力有限。相比之下,MedSAM始终提供卓越的性能。例如,MedSAM在鼻咽癌分割任务上的DSC中位数得分为87.8% (IQR: 85.0-91.4%),比SAM、专家U-Net和DeepLabV3+分别提高52.3%、15.5%和22.7分。值得注意的是,MedSAM在一些不可见的模式(例如腹部T1 Inphase和Outphase)中也取得了更好的性能,超过SAM和专家模型,改进高达10%。图4c给出了四个随机选择的分割示例进行定性评价,结果表明,虽然所有方法都具有处理简单分割目标的能力,但MedSAM在分割具有难以区分边界的挑战性目标方面表现更好,例如MR图像中的宫颈癌(更多示例见补充图13)。此外,我们在多发性骨髓瘤浆细胞数据集上评估了MedSAM,与之前所有的验证任务相比,它代表了一种独特的模式和任务。虽然在训练中从未见过该任务,但MedSAM仍然表现出优于SAM的性能(见文章支撑材料图14),突出了其出色的泛化能力。

图4 定量和定性评价结果上的外部验证集。a. 以dice相似系数(DSC)得分为依据的60个外部验证任务的性能分布。框内的中线代表中位数,框的下界和上界分别划定了第25和第75个百分位数。选取须表示四分位数区间的1.5。向上三角形表示最小值,向下三角形表示最大值。b. 用于可视化60个外部验证任务的性能对应关系的平台图。上半部分:每个彩色点表示用各自的方法在一个任务上获得的DSC中位数。对应相同任务的点用一条线连接起来。下图:柱状图表示每种方法获得排名的频率。MedSAM在大多数任务中排名第一。c. 外部验证集上的可视化分割示例。这四个例子分别是CT、MR、超声和内窥镜图像中的淋巴结、宫颈癌、胎头和息肉。源数据作为源数据文件提供。

03. The effect oftraining dataset size

本文还研究了不同数据集大小对MedSAM性能的影响,因为训练数据集大小已被证明是模型性能的关键。本文还在两种不同的数据集大小上训练MedSAM: 10,000 (10K)和100,000 (100K)图像,并将其性能与默认MedSAM模型进行比较。10K和100K的训练图像从整个训练集中均匀采样,保持数据的多样性。如图5a所示(见文章补充表12-14),性能遵循缩放规则,增加训练图像的数量可以显著提高内部和外部验证集的性能。

图5 训练数据集大小和用户研究对肿瘤标注效率的影响。a.将训练图像的大小扩大到一百万,可以显著提高模型在内部和外部验证集上的性能。b. MedSAM可以大大降低标注时间成本。源数据作为源数据文件提供。

04. MedSAM can improvethe annotation efficiency

此外,本文进行了一项人工注释研究,以评估两种Pipeline的时间成本。对于第一条Pipeline,两名人类专家以逐片的方式手动注释3D肾上腺肿瘤。对于第二条Pipeline,专家们首先每3-10片用线性标记(初始标记)画出肿瘤的长、短轴,这是肿瘤反应评价中常见的做法。然后,利用MedSAM基于这些稀疏线性注释对肿瘤进行分割。最后,由专家手动修改分割结果,直到满意为止。本文定量地比较了两种管道之间的标注时间成本(图5b)。结果表明,在MedSAM的辅助下,两位专家的标注时间分别大幅缩短了82.37%和82.95%。

05.Training protocoland experimental setting

在数据预处理过程中,作者采集了1,570,263对医学图像掩模,用于模型开发和验证。对于内部验证,作者将数据集随机分成80%、10%和10%,分别作为训练、调优和验证。具体来说,对于扫描内存在连续性的模式,如CT和MRI,以及连续帧之间存在连续性的模式,作者分别在3D扫描和视频级别执行数据分割,从而防止任何潜在的数据泄漏。对于病理图像,认识到幻灯片级内聚性的重要性,作者首先将整个幻灯片图像分离为不同的基于幻灯片的图像集。然后将每张幻灯片分成固定大小为1024 × 1024的小块。这种设置允许作者监视模型在调谐集上的性能,并在训练期间调整其参数以防止过拟合。对于外部验证,所有数据集都被保留,并且在模型训练期间不出现。这些数据集为模型的泛化能力提供了严格的测试,因为它们代表了模型以前没有遇到过的新患者、成像条件和潜在的新分割任务。通过评估MedSAM在这些看不见的数据集上的表现,可以对MedSAM在现实世界的临床环境中可能的表现有一个现实的理解,在现实世界中,MedSAM需要处理数据中的大量可变性和不可预测性,训练和验证是独立的。

使用预训练的SAM模型和ViT-Base模型对模型进行初始化。作者修复了提示编码器,因为它已经可以对边界框提示进行编码。在训练过程中更新图像编码器和掩码解码器中的所有可训练参数。具体来说,图像编码器和掩码解码器的可训练参数数量分别为89,670,912和4,058,340。用0~20像素的随机扰动从专家注释中模拟边界框提示。损失函数是骰子损失和交叉熵损失的未加权和,已被证明在各种分割任务中具有鲁棒性1。采用AdamW优化器(β1=0.9,β2=0.999)对网络进行优化,初始学习率为1e-4权值衰减为0.01。全局批大小为160,没有使用数据增强。模型在20个A100 (80G) gpu上进行150个epoch的训练,最后一个检查点作为最终模型。

epoch和最后一个检查点被用作最终模型。DeepLabV3+专家模型使用ResNet5038作为编码器。与参考文献3类似,输入图像被调整为224 × 224 × 3。将边界框转换为二进制掩码作为额外的输入通道,以提供对象位置提示。使用Pytorch(0.3.3)对所有模态专家DeepLabV3 +模型进行训练和推理。每个模态智能模型在一个A100 GPU上进行500个epoch的训练,最后一个检查点作为最终模型。在推理阶段,使用SAM和MedSAM对单个模型的所有模态进行分割。相比之下,U-Net和DeepLabV3+专家模型被用于单独分割各自对应的模式。此外,为了全面评估MedSAM的性能,我们对最先进的分割基础模型SAM7和专业模型(即U-Net1和DeepLabV3+24)进行了比较分析。训练图像包含10种模式:CT、MR、胸部x光(CXR)、皮肤镜、内窥镜、超声、乳房x光、OCT和病理,本文针对每种模式训练了U-Net和DeepLabV3+专家模型。专家模型共有20个,对应的训练图像数量见本文补充表5。本文使用nnU-Net进行所有U-Net实验,它可以根据数据集属性自动配置网络架构。为了将边界框提示合并到模型中,本文将边界框转换为二进制掩码,并将其与图像连接作为模型输入。该功能最初是由级联管道中的nnU-Net支持的,通过使用二进制掩码作为指定目标位置的附加通道,在许多分段任务中证明了提高的性能。训练设置遵循2D nnU-Net的默认配置。每个模型在一个A100 GPU上进行1000的训练。

对于某些应用程序,特定于任务的分段模型可能优于基于模态的分段模型。由于U-Net在大多数任务上的表现都优于DeepLabV3+,本文进一步通过训练特定任务的U-Net模型,对CT扫描中的肝癌分割、MR扫描中的腹部器官分割、超声图像中的神经癌分割、内镜图像中的息肉分割等4个代表性任务进行对比研究。实验包括内部验证和外部验证。对于内部验证,本文坚持默认的数据分割,使用它们来训练特定于任务的U-Net模型,然后在相应的验证集上评估它们的性能。对于外部验证,训练好的U-Net模型在来自相同模态或分割目标的新数据集上进行评估。在所有这些实验中,MedSAM都直接应用于验证集,没有额外的微调。如图15所示,虽然特定于任务的U-Net模型通常在内部验证集上取得了很好的结果,但它们的性能在外部验证集上显著下降。相比之下,MedSAM在内部和外部验证集上都保持一致的性能。这强调了MedSAM优越的泛化能力,使其成为各种医学图像分割任务的通用工具。

04 讨论

本文介绍了MedSAM,这是一种基于深度学习的基础模型,用于在不同的医学成像模式下对大量解剖结构和病变进行分割。MedSAM是在一个精心构建的大型数据集上进行训练,该数据集由超过一百万的医学图像掩模对组成。它的快速配置在自动化和定制之间取得了最佳平衡,使MedSAM成为通用医学图像分割的通用工具。

通过包括内部和外部验证在内的综合评估,MedSAM已经展示了在分割不同目标阵列和管理新数据和任务的强大泛化能力方面的实质性能力。其性能不仅明显超过现有最先进的细分基础模型,而且可以与专业模型相媲美甚至超越。通过提供解剖结构和病理区域的精确描述,MedSAM促进了作为生物标志物的各种定量测量的计算。例如,在肿瘤学领域,MedSAM可以在加速3D肿瘤注释过程中发挥关键作用,从而实现肿瘤体积的后续计算,而肿瘤体积是评估疾病进展和治疗反应的关键生物标志物。此外,MedSAM为将自然图像基础模型应用于新领域提供了一个成功的范例,可以进一步扩展到生物图像分割,例如光学显微镜图像中的细胞分割和电子显微镜图像中的细胞器分割。

虽然MedSAM拥有强大的能力,但它也存在一定的局限性。其中一个限制是训练集中的模态不平衡,CT、MRI和内窥镜图像在数据集中占主导地位。这可能会潜在地影响模型在代表性较低的模式上的表现,比如乳房x光检查。另一个限制是它在分割血管状分支结构方面的困难,因为在这种情况下,边界框提示符可能是模糊的。例如,在眼底图像中,动脉和静脉共享同一个边界框。然而,这些限制并没有减少MedSAM的效用。由于MedSAM从大规模训练集中学习了丰富且具有代表性的医学图像特征,因此可以对其进行微调,以有效地从代表性较低的模式或复杂的结构(如血管)中分割新任务。

总之,本研究强调了构建一个能够管理大量分割任务的单一基础模型的可行性,从而消除了对任务特定模型的需求。MedSAM作为医学图像分割的首个基础模型,在加速新诊断和治疗工具的发展,并最终为改善患者护理做出贡献方面具有巨大潜力。

版权说明

本文中的内容全部来自论文《Segment anything in medical images》,分享文章的目的是为了让更多刚入门的同学能够快速了解最前沿的科研动态,进而筛选出对自己有帮助的文献,助力科研。如有侵权,请联系本公众号立即删除。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ObkyfUJFq4G3ycuDuSlfmDOA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券