前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >轻量级网络 LiteNeXt | 结合卷积与混合模块,以小参数实现高效图像分割 !

轻量级网络 LiteNeXt | 结合卷积与混合模块,以小参数实现高效图像分割 !

作者头像
AIGC 先锋科技
发布2024-07-08 14:17:51
1460
发布2024-07-08 14:17:51
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

Abstract在本文中,作者提出了一种名为LiteNeXt的新型轻量级网络架构,用于医学图像分割,其灵感来源于近期ConvMixer的成功。与传统ConvMixer不同,LiteNeXt是一种更紧凑的架构,具有自嵌入表示并行特性,其中输入特征通过具有不同核大小和扩张的并行分支进行增强,且跳跃连接精心设计以保留特征信息。在三个公共医学图像分割数据集(即前列腺、肺和脑部)上的大量实验表明,与现有先进方法相比,LiteNeXt在参数更少和计算成本更低的情况下,实现了具有竞争力的分割性能。深度学习技术的出现推动了图像分割任务的发展,尤其是在医学图像领域。 过去十年中,许多神经网络模型被引入,使得自动分割的准确度接近手动分割。然而,像基于Transformer的架构这样的前沿模型依赖于大规模的标注训练数据,通常设计为编码器、解码器和跳跃连接中密集连续的层,导致参数数量庞大。 此外,为了更好的性能,它们通常在大规模数据上进行预训练,因此需要较大的内存容量,增加了资源开销。在本研究中,作者提出了一种新的轻量级但高效的模型,名为LiteNeXt,基于卷积和混合模块以及简化的解码器,用于医学图像分割。 该模型从零开始训练,参数量小(0.71M)且每秒浮点运算次数少(0.42G)。为了处理特别是在医学图像区域中目标的边界模糊以及遮挡或杂乱问题,作者提出了边际权重损失(Marginal Weight Loss),该损失可以帮助有效地确定目标与背景之间的边际边界。 此外,作者提出了自我嵌入表示并行(Self-embedding Representation Parallel)技术,该技术可以帮助以自我学习的方式增强数据。 在包括Data Science Bowls、GlaS、ISIC2018、PH2和Sunnybrook数据在内的公共数据集上的实验表明,与其他基于CNN和基于Transformer的最先进架构相比,结果令人鼓舞。 作者的代码将发布在:https://github.com/tranngocduvnp/LiteNeXt。

引言

在医学成像中,分割是一项关键且经常执行的活动,它允许提取关于感兴趣区域的精确结构信息。手动分割既繁琐又耗时,并且需要经验丰富的专家和医生才能得到准确的结果,因此在医学诊断中构建自动分割框架是一项紧迫的任务。近年来,在包括目标识别、图像分割和图像分类在内的多种计算机视觉任务中,深度学习模型已经超越了传统技术[1, 2, 3]。在医学图像识别中,自动化学习过程的应用越来越受欢迎。在医学图像分析领域,分割模型可以帮助缩短从图像(如脑肿瘤[4, 5, 6]、脑部[7]、心脏磁共振图像中的左心室[8, 9]、皮肤镜下的皮肤病变[10, 11]、细胞显微镜图像[12, 13]、耳镜鼓膜图像[14]、整个心脏[7])中确定受损区域和感兴趣组织的时间,从而在目标勾勒过程中最小化人的主观错误,并帮助医生为患者做出准确的诊断以及制定有效的治疗方案。

在典型的深度学习分割模型中,输入图像通过编码器传递以提取作为特征图的语义信息。然后这些特征通过解码器进行解码以创建预测 Mask 。然而,在通过编码器编码图像时,尽管图像的语义信息增加了,但图像的空间信息却降低了。因此,在执行解码过程时,通常不能产生高度准确的结果。为了解决这个问题,研究了对称的U型编码器和解码器分支以及两个分支之间的捷径连接来解决解码过程中空间信息丢失的Ushape模型[1, 15]。Ushape模型在未使用对称编码器解码器分支的传统FCN[2]模型(如FCN32[2])上表现出更高的性能。尽管它们提供高准确性,但Ushape模型的参数数量多且计算成本高。

近年来,为图像分割设计轻量级模型越来越受到关注。具有较少参数和较短推理时间的轻量级模型可适用于移动设备和实际应用。早期可以被认为的轻量级模型之一是Medical Transformer(MedT)[16],该模型首次在2021年提出。这个模型基于 Transformer 网络架构,希望模型能够学习长距离依赖和高度表现性的表征。该模型提出了一种通过给自注意力模块额外的控制机制进行门控轴向注意力模型。通过沿着高度和宽度轴应用轴向注意力,有效地模拟了原始的自注意力机制,并显著提高了计算效率。尽管MedT拥有140万的参数令人印象深刻,但其GFLOPs(十亿次浮点运算每秒)数量较多,导致推理时间变慢。UNeXt [17]是另一种用于图像分割的轻量级模型,具有较小的GFLOPs和仅147万的参数,基于卷积和多层感知机。该模型的架构仍然遵循UNet [18]的编码器-解码器架构,带有跳跃连接,但在每个块中的设计有所不同。在最近的工作中,U-Lite [19]模型拥有比MedT和UNeXt模型更少的参数,仅有878K个参数。该模型的架构也遵循UNet的对称架构,带有编码器、解码器和跳跃连接,但旨在加强卷积神经网络(CNN)的能力,同时显著减少参数数量。作者提出了一个轴向深度卷积模块,该模块受到Vision Permutator和ConvNeXt设计的启发。这个模块使用轴向卷积7x7,提供了较大的感受野,以及点式卷积,帮助沿着特征图的深度编码特征,并灵活地改变特征图通道的数量,从而比传统卷积具有更少的参数。总的来说,这些轻量级模型在部署于边缘设备时解决了内存和推理速度问题。然而,它们的设计仍有一些缺点,例如使用未经优化计算成本的U形架构,或者采用卷积机制或自注意力机制的简化版本,这也影响了整体分割性能。

受到轻量级模型的启发,在本研究中,作者提出了一种能够有效处理医学图像分割任务的新框架。作者发现,如果作者能设计出一个足够好的特征提取器,就可以消除多层解码器分支。因此,模型的计算成本和参数数量可能会大大减少。另一个问题是,在医学图像中,边界区域对精确分割提出了许多挑战,而目标内部和背景区域通常分割起来相对容易。这使作者想到,在损失函数中使用合理的加权策略来强调边缘边界,可以提高网络性能。受到这些动机的激励,作者提出了一种名为LiteNeXt的新模型,该模型参数数量少,计算成本低,与许多最近的轻量级模型相比,GFLOPs数量也少得多。此外,作者引入了一种新的损失函数加权方法,即边际权重损失函数,为每个目标区域采用合理的加权策略。作者还提出了一种新的训练策略,即自嵌入表示并行(Self-embedding Representation Parallel),该方法改编自BYOL自监督学习方法[20],有助于提高分割性能。关于各部分的内容将在以下各节中介绍。

总结来说,主要发现如下:

  • 作者提出了一种名为LiteNeXt的新模型,仅拥有720K个参数,但与其他许多轻量级方法相比,性能更优。
  • 在损失函数中引入了一种新的加权方法,称为边际权重损失,能够很好地区分医学图像中目标之间的边界。
  • 一种自监督训练方法,即自嵌入表示并行,首次应用于完全监督的分割问题,以提高模型的鲁棒性。

在五个流行的医疗数据集上进行的实验,这些数据集包括Data Science Bowl 2018数据集、GlaS分割数据集、ISIC2018病变分割数据集、PH2数据集和Sunnybrook心脏数据集,已显示出所提出模型和损失函数与其他方法相比的优越性能。

相关工作

Mixer Models

在Vision Transformers(ViT)[21]在图像分类任务上取得成功之后,一系列研究[22, 23]采用了通用的模块设计,这些模块包括两部分:空间混合和通道混合,并通过跳跃连接在不同视觉任务上展示了令人印象深刻的结果。Tolstikhin等人[24]首次提出了MLP-mixer模型,该模型仅通过使用MLP块就能混合空间和通道信息。Trockman[25]等人提出了ConvMixer模型中的新空间混合块,即ConvMixer块,其中空间混合仅使用单个深度卷积层,而不是自注意力或MLP Token 混合。尽管设计简单,但ConvMixer在准确性和参数数量方面与ViT和MLPMixer相比仍具有竞争力。Yu等人[26]提出了MetaFormer模型,该模型通过使用块池化简化了空间混合,但也能与ViT竞争结果。Liu等人[27]提出了ConvNeXt模型,其中ConvNeXt块的设计与ConvMixer块类似,但跳跃连接直接从输入特征图连接到输出特征图。ConvNeXt在许多视觉任务上完全超越了基于变换的模型。在这项研究中,作者提出了受ConvMixer块和ConvNeXt块启发的LGEMixer块,该块能够通过使用不同大小的核来混合不同距离像素的信息。

Generate Context decoder

使用编码器和解码器组件中分辨率相等的特征图之间的连接是Unet-based模型的做法,旨在保留位置信息。

然而,这种方法面临两个挑战:

  1. 在编码器阶段包含高分辨率特征图通常包括低级细节,而解码器阶段的高分辨率特征图包含更多高级信息。这导致在它们之间建立连接时在语义信息上存在不平衡。
  2. 在医学图像中,物体往往表现出不同的尺寸。因此,为了准确分割这些物体,仅依赖特征图编码器在某一尺度上的上下文信息是不够的。

有必要整合全尺度特征图的上下文信息。之前的大量工作尝试通过使用复杂的连接方式如[28, 29]或使用连接注意力如[30]来解决这些缺点。然而,这些连接方式的缺点是计算成本高,且没有有效地利用全尺度特征图信息。在[31]中提出了生成上下文解码器(GCF)模块来解决这些问题。GCF模块受到 Transformer 模型[32]中的自注意力机制的启发,它使用三个元素: Query (query)、键(key)和值(value)。

键和值组件从编码器的特征图中生成, Query 组件从解码器的特征图中生成。这组 Query 、键、值三个组件将与轻量级注意力块结合,创建一个特征图上下文,为解码过程补充全尺度编码器的上下文信息。尽管GCF受到 Transformer 自注意力的启发,但其参数数量和计算成本较低。因此,在本研究中,作者使用GCF模块来简化编码器和解码器块之间的连接,以平衡计算成本和准确性。

Weighting In Loss Function

在图像分割中,经常使用的损失函数是交叉熵损失[33],它通过比较类别预测(就深度而言是像素向量)与以一键编码格式编码的目标向量,单独评估每个像素。这个损失函数的目的是评估预测图像 Mask 与实际图像 Mask 之间的信息内容差异。由于交叉熵损失的性质是单独检查每个像素向量,并计算所有像素的平均值,因此图像中的每个像素都被赋予同等的重要性。因此,在图像 Mask 显示出显著的类别不平衡,如医学图像 Mask 的情况下,训练过程可能会被最普遍的类别所主导,导致少数类别的性能不佳。W-BCE[34]通过为阳性像素使用一个系数来强调学习像素作为目标的重要性,以减少假阴性的数量,解决了这个问题。W-BCE的另一种变体是平衡交叉熵(B-BCE)[35],它为阳性像素和阴性像素都使用权重。Focal loss[36]也是WBCE损失的一个变体,除了权重之外,focal loss还使用基于预测逻辑的调整因子来降低容易预测的像素的权重,并严厉惩罚难以预测的像素。Ronneberger等人[1]提出了一种针对地面 Mask 像素的加权策略,通过计算每个像素到最近的目标边界的欧几里得距离之和以及次近边界的函数来生成权重 Mask 。这种策略有助于网络在目标之间的边界处学习得更好。然而,这些方法的缺点是它们在目标和背景之间的边界区域分离上并不是做得很好。

BYOL Self-supervised Learning

在计算机视觉任务的无监督学习问题中,学习好的图像特征表示始终是一个挑战。一些采用对比学习方法的方法取得了最先进的表现[37],但存在许多局限性,如对正负样本对的选取有很大依赖,对增强数据集的依赖……为了解决这个问题,Grill等人[20]提出了一种新的自监督学习方法,称为BYOL。在这种方法中,他们首先以两种不同的方式对图像进行数据增强,为同一图像创建两个不同的视角。接下来,他们使用两个网络——在线网络和目标网络,这两个网络在结构上具有相同特征提取器,共同学习图像表示。特别是,在线网络输入一个增强的图像,预测目标网络对该图像(以不同方式增强)的输出。在BYOL方法中,通过最小化在线网络表示向量与目标网络的距离来学习在线网络的参数。目标网络的参数将根据在线网络的参数通过指数移动平均(EMA)[38]方法进行更新。此外,模型还在在线网络的输出向量上使用了一个额外的预测层,在训练过程中创建不对称性,以防止在学习过程中崩溃。在这项研究中,作者提出了一种受BYOL启发的训练策略,称为自嵌入表示平行(SeRP),以提高模型中编码器的鲁棒性。

The proposed model

提出的LiteNeXt模型的概览如图1a所示。输入图像首先被送入特征提取器和瓶 Neck 分以编码语义信息;GCF模块也用于从特征提取器的四个阶段提取上下文信息,以向解码过程添加详细信息。紧接着,特征图上下文和瓶颈的特征图将被连接起来,并使用线性插值上采样到 Mask 预测的确切分辨率。每个块的具体细节将在下一节中介绍。

3.1.1 The proposed LGEMixer Block

尽管基于Transformer的模型在某些应用中表现出优于基于CNN的方法,但它们的计算复杂度较高。另一方面,一些近期的研究表明,一些计算成本较低的完全基于CNN的架构,如ConvMixer [25]和ConvNeXt [27],也取得了出色的表现。在这项研究中,作者提出了一种轻量级特征提取器,由受ConvMixer和ConvNeXt块启发的LGEMixer块组成,但进行了一些改进,以提高分割任务的准确性。

LGEMixer块的整体架构包括两个子模块:LocalMixer块和FarMixer块。如图2a所示,输入特征图通过LocalMixer块(图2b),该块包括一个核大小为3的卷积层,后面跟着一个层归一化层和一个GELU激活函数,以提取目标的详细信息。然后输出特征图将通过FarMixer块(图2c)混合远距离像素的信息,以扩展模型的感受野。为了减少整个模型的计算成本和参数数量,FarMixer块根据残差结构设计,包括一个具有大核大小的深度卷积层,后面跟着层归一化层和GELU激活函数。为了避免信息丢失并为训练过程提供灵活性,在LocalMixer块和FarMixer块之间使用了一个跳跃连接。

为了混合通道信息,使用了一个核大小为1的卷积块,其后是层归一化和GELU激活。最后,使用一个池化大小为2的最大池化块,将分辨率特征图的尺寸下采样为。在消融研究中,所提出的LGEMixer块即使参数数量和GFLOPs相等,也显示了比ConvMixer块和ConvNeXt块更高的结果。LGEMixer块操作的详细数学公式如下:

其中 R是第_i_层编码器的输入特征图,Conv是核大小为3的卷积层,DWConv是核大小为7的深度卷积,是层归一化层,Conv是核大小为1的卷积层。

3.1.2 Head Projector

在LiteNeXt模型中, Head 分投影器(Head Projector)用于辅助模型训练过程。其中,projectorS用于主要特征提取器,projectorT用于目标特征提取器。在推理过程中,将移除这两个 Head 分投影器和目标特征提取器,只使用主要特征提取器来提取语义信息。图3a展示了projectorT。目标特征提取器的特征图将通过两个分支:全局平均池化(GAP)和全局最大池化(GMP)来提取平滑性和锐利信息。

这两个向量随后相加,为输入图像创建嵌入。ProjectorS如图3b所示,与projectorT类似,projectorS也包括两个并行的全局最大池化和全局平均池化分支,以合成来自主要特征提取器特征的信息向量。此外,在projectS中,先前的合成向量将继续通过一个包括MLP块和GELU激活函数的挤压和激励层,以在训练过程中创建不对称性。两个块projectorT和ProjectorS的公式如下:

The Proposed Marginal Weight Loss (MWL) Function

作者提出了一种基于分割难度的图像三个不同分区的加权策略。直观地说,背景区域通常占据较大面积,分割相对容易,因此在损失函数中作者为背景赋予较小的值 。接下来,由于目标内部的分区通常比背景区域更难以分割,因此作者对目标赋予的权重 要大于 。最后,考虑到边界区域,这对于大多数分割算法来说是最困难的,特别是在医学图像中。这个区域的像素通常被错误地识别为背景,或者相反,将背景错误地识别为目标,因此模型无法详细分割目标,特别是在图像中有很多目标并且目标靠得很近的情况下。因此,在这个方法中,作者将赋予边界 (其中 代表margin,边界)最大的值。总的来说,作者有 作为超参数,并且为了限制搜索空间,作者设置 ,搜索步长等于 。如图4所示,为了确定每个分区区域,需要对背景、目标和边界进行加权。

作者直接在 GT Mask 上执行两个操作:腐蚀和膨胀,通过与两个具有相同大小 但填充不同值的 Kernel 进行卷积,并进行以下阈值操作。在其中,腐蚀操作中, Kernel 填充的值为 ,而膨胀操作中, Kernel 填充的值为 。所提出的边缘权重损失(MWL)的详细操作在算法1的伪标签代码中描述如下:

算法1 确定所提出的边缘权重损失(MWL)的区域权重的算法

结合权重的损失函数公式如下描述:

其中 H, W 是 GT Mask 的高度和宽度,_yi_ 是 GT Mask 中的值,_yi_ 是预测 Mask 的值。

Proposed Self-embedding Representation Parallel (SeRP)

合理推测,一个不错的编码器应能够从略有不同的观察角度为同一图像提取出相同的表示。特别是在作者提出的轻量级模型中,当解码器分支移除了大部分层时,编码器分支必须能够表现良好。因此,在本节中,作者提出了一种称为自嵌入表示平行的(SeRP)训练策略。这种方法受到 Bootstrap Your Own Latent (BYOL) [20] 模型的启发,该模型在自监督学习的分类任务中取得了非常好的结果。

据作者所知,这是该方法首次被应用于端到端训练医学分割模型中的编码器鲁棒性。作者的方法如下所述。作者使用了两个框架,主框架和目标框架,它们具有相同的特征提取器架构,分别是 Fm 和 _Ft_,但具有不同的权重和不同的头投影仪。目标框架将为主框架训练提供嵌入目标。对于输入图像 I_,将以两种不同的方式进行增强以创建两个新图像,_IsIs_w,分别代表强增强和弱增强图像。_Is 和 _Is_w 将分别通过主特征提取器框架和目标特征提取器框架,以创建两个嵌入向量 和 。最后,将SeRP的损失应用于以下两个嵌入 和 :

L_{SeRP}(\theta,\tau,\phi)=1-\frac{}{\max{(||e_{m}||_{2}*||e_{t}|| _{2},\epsilon)}} \tag{9}

其中 和 是主框架中特征提取器和投影器的权重, 是目标框架中目标特征提取器的权重,而 是避免潜在除以零的分母系数。在训练过程中,仅使用反向传播算法学习权重 和 ,而权重 将基于权重 使用指数移动平均(EMA)方法[38]进行更新。完整的流水线训练概览在算法2中如下描述:

算法2 LiteNeXt模型的完整流水线训练

4 Experiments

Datasets

Data Science Bowl 2018 dataset

2018年数据科学碗数据集(Bowl2018)[39]是在2018年举行的数据科学碗竞赛中使用的一个著名数据集。这是一个大规模的数据集,吸引了来自世界各地的研究行人和数据科学家,以应对与医学成像相关的特定挑战。这个数据集包含了大量带有分割核的图像。这些图像是在各种条件下获取的,展示了细胞类型、放大 Level 和成像技术(如明场或荧光)的多样性。数据集的主要目标是测试算法是否能够跨这些变化进行泛化。

为了评估作者建议方法的效率,作者将一组671个带有已知标签的核图像分为两部分:70%用于训练,10%用于验证,20%用于测试目标。

GLAS Segmentation dataset

腺体分割数据集(GlaS)[40]是专门为在组织病理学图像中分割腺体结构而设计的。这个数据集包含165张高分辨率的组织病理学图像,通常是从经苏木精-伊红(H&E)染色的组织切片获取的。这些图像展示了各种包含腺体结构的组织样本,如乳腺、前列腺和结肠。与前面提到的数据集类似,作者将此数据集划分为两个子集,以评估所提出的方法。训练集包含70%的数据,验证集包含10%的数据,而测试集包括剩余的20%。

ISIC2018 Lesion Segmentation dataset

ISIC 2018数据集(ISIC2018)[41],也称为国际皮肤成像合作2018数据集,是一个广泛认可并广泛应用于皮肤科和计算机视觉研究领域的皮肤图像综合集合。它旨在帮助开发和评估用于皮肤病变分析和分类的算法。

为了评估作者的方法,作者使用了ISIC 2018数据集中的病变边界分割数据集。这个数据集包含了2594张皮肤病变的皮肤镜图像,以及来自不同解剖位置和机构的专家标注 Mask 。

为了评估作者提出的方法,作者将这个数据集分成了三个部分:70%用于训练,10%用于验证,20%用于测试。

PH2 dataset

PH2 [42]是一个小型数据集,其创建目的是支持研究并为评估皮肤镜图像的分割和分类算法提供一个基准。它旨在促进比较研究,推动这些研究领域的发展。这个集合包括200张黑色素细胞病变的皮肤镜图像,这些图像是高分辨率的8位RGB彩色图像,尺寸为768x560像素。在这些图像中,有80个非典型痣,80个普通痣和40个黑色素瘤。这个数据集提供了广泛的黑色素细胞病变,使其成为皮肤科和计算机视觉等研究领域的重要资源。与上述所有数据集一样,作者也把PH2数据集分为3部分,其中70%用于训练,10%用于验证,20%用于测试目的。

Sunnybrook dataset

Sunnybrook数据集[43]是一个全面的心脏电影MRI数据汇编,来自45名患者,提供了广泛的心脏状况,包括正常心脏、肥厚、有无梗死的心力衰竭等。这个数据集最初是为了2009年MICCAI挑战而引入的,该挑战专注于使用短轴心脏MRI自动分割左心室(LV)。该数据集提供了专家细致的手动分割轮廓,包括心内膜、心外膜以及从基底到心尖的切片上的乳头肌,在心舒末期(ED)和心缩末期(ES)阶段。Sunnybrook数据集在心脏图像分析研究和发展领域具有重大价值,作为宝贵的资源。这些分割标注对于开发和测试左心室(LV)分割的自动化算法至关重要。在这个实验中,作者将数据集划分为三个不同的子集,每个子集都包括心内膜和心外膜部分。划分是按照8:1:1的比例进行的,分配80%的数据用于训练,10%用于验证,剩余的10%用于测试。

Evaluation Metrics

在生物医学图像分割任务中,Dice相似系数(DSC)和交并比(IoU)都常用于评估模型的性能。它们提供了预测分割与真实分割之间对齐程度的度量,值越高表示一致性越好。Dice系数测量预测分割与真实分割之间的重叠部分。其取值范围从0到1,1表示完全重叠,0表示没有重叠。Dice系数的计算方式是将预测 Mask 与真实 Mask 的交集中的元素数量乘以2,然后除以它们的总和。交并比(IoU)通过计算预测与真实之间的交集与并集的比率来量化它们之间的重叠。它的取值范围也是从0到1,1表示完全匹配。计算DSC和IoU的公式如下:

其中 TP 是真正例的数量,_FP_ 是假正例的数量,_FN_ 是假反例的数量,而 是分母系数,用来避免潜在的除以零错误。

Implementation Details

作者在Kaggle平台上进行了LiteNeXt模型的实验,使用了Nvidia Tesla P100 GPU和pytorch框架版本1.12.0。在所有实验中,作者将模型训练了300个周期,使用NAdam [44]优化器,学习率为1e-4。为了减少过拟合,作者采用了_L2_正则化方法[45],并结合_ReduceLROnPlateau_调度器的学习率策略,步长为30,下降率为0.75。还使用了数据增强方法,包括旋转、水平翻转、垂直翻转、颜色抖动、随机亮度对比度、高斯模糊、随机调整大小裁剪。在训练和测试期间,所有图像都被调整为256x256。根据消融研究,超参数设置为:。与所提模型进行比较的大多数模型是从官方公开源代码中重新训练的,且使用了与所提模型相同的训练设置。比较表格中带有*的模型是具有私有代码的模型,因此结果直接引用自原文。

Experimental Results

4.4.1 Evaluation on the 2018 Data Science Bowl dataset

在第一个实验中,作者验证了作者的LiteNeXt模型与不同卷积神经网络(CNN)模型在2018年数据科学碗数据集上的性能。为了展示边际权重损失策略在准确分离目标方面的有效性,作者将所提出方法与不同CNN模型在测试集上的可视化图像进行了比较。图5的结果表明,作者提出的方法在分离相邻目标边缘方面比其他方法更具能力,同时预测噪声也显著减少。

在定量评估方面,表1的结果显示,与UNeXt、MedT、DCSAU-Net等其他轻量级模型相比,作者提出的模型在平均DSC和IoU指数上具有更高的准确度。所提出的LiteNeXt的DSC为92.5%,而UNeXt得分为90.12%,DCSAU-Net为90.21%,MedT为88.62%。结果还表明,尽管参数数量小了44倍,计算复杂度小了132倍,作者的模型在准确度上与大型分割模型如Unet(88.76%)、注意力U-Net(90.63%)、FCN(89.23%)具有竞争力。

4.4.2 Evaluation on the GlaS dataset

为了验证其在小数据集上的工作能力,在本实验中,作者将提出的方法与不同模型在GlaS数据集上的表现进行了评估。图6展示了测试集上前5个最佳预测的可视化结果,表明作者的方法生成了质量良好且与真实值相似的预测 Mask 。

图6:在GlaS数据集上前5个最佳预测的可视化结果。红色标记的重要区域展示了预测与真实值之间最大的差异。

表2的性能比较结果显示,在大多数指标上,作者的方法优于其他方法。具体来说,作者的方法达到了平均DSC为90.91%,平均IoU为84.15%。同时,UCTransNet得到了90.02%的DSC分数,优于其他比较模型。然而,UCTransNet的参数数量要多得多(65.6M),并且具有63.2G的GFLOPs,导致推理时间缓慢。

4.4.3 在ISIC 2018数据集上的评估

接下来,为了进一步验证所提出方法在医学图像分割中的有效性,作者在ISIC2018数据集上对提出的方法进行了性能评估。图7的可视化结果显示,与其它方法相比,作者提出的方法给出的预测结果更接近真实值。尤其是在皮肤损伤不明确的情况下,作者提出的方法在诊断上仍然相对准确。表3展示了结合边际权重损失和自嵌入的LiteNeXt模型与其他模型的比较结果。如表3所示,作者提出的方法实现了90.52%的mDSC(平均DSC)和83.93%的mIoU(平均IoU)性能,完全超越了其他模型。特别是对于计算成本较低的模型,如UNeXt和DCAUNet,作者的模型在平均Dice指标上分别提高了2.73%和2.04%。对于参数数量分别为41倍和148倍的DoubleU-Net和TransUnet等模型,作者的模型平均Dice分别提高了1.51%和1.53%。

4.4.4 Evaluation on the PH2 data

在本实验中,为了进一步评估所提出方法在小数据集上的性能,作者将该方法与不同模型在PH2数据上进行了比较。图8展示了在测试集上前5个最佳预测的可视化结果。显然,与其它方法相比,作者方法的分割预测与真实值更为一致。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 相关工作
  • Mixer Models
  • Generate Context decoder
  • Weighting In Loss Function
  • BYOL Self-supervised Learning
  • The proposed model
  • 3.1.1 The proposed LGEMixer Block
  • 3.1.2 Head Projector
  • The Proposed Marginal Weight Loss (MWL) Function
  • Proposed Self-embedding Representation Parallel (SeRP)
  • 4 Experiments
  • Datasets
  • Data Science Bowl 2018 dataset
  • GLAS Segmentation dataset
  • ISIC2018 Lesion Segmentation dataset
  • PH2 dataset
  • Sunnybrook dataset
  • Evaluation Metrics
  • Implementation Details
  • Experimental Results
    • 4.4.1 Evaluation on the 2018 Data Science Bowl dataset
      • 4.4.2 Evaluation on the GlaS dataset
        • 4.4.3 在ISIC 2018数据集上的评估
          • 4.4.4 Evaluation on the PH2 data
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档