前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CyTran: Cycle-Consistent Transformers forNon-Contrast to Contrast CT Translation

CyTran: Cycle-Consistent Transformers forNon-Contrast to Contrast CT Translation

作者头像
狼啸风云
发布2023-10-07 15:23:47
1730
发布2023-10-07 15:23:47
举报

摘要

 我们提出了一种新的方法,将不成对的对比度计算机断层扫描(CT)转换为非对比度CT扫描,反之亦然。解决这项任务有两个重要的应用:(i)为注射造影剂不是一种选择的患者自动生成对比CT扫描,以及(ii)通过在配准前减少造影剂引起的差异来增强对比CT和非对比CT之间的对准。我们的方法基于循环一致的生成对抗性卷积变换器,简称CyTran。由于循环一致性损失的积分,我们的神经模型可以在未配对的图像上进行训练。为了处理高分辨率图像,我们设计了一种基于卷积和多头注意力层的混合架构。此外,我们还介绍了一个新的数据集Coltea-Lung-CT-100W,其中包含从100名女性患者中收集的3D三相肺部CT扫描(共37290张图像)。每次扫描包含三个阶段(非造影、早期门静脉和晚期动脉),使我们能够进行实验,将我们的新方法与最先进的图像风格转移方法进行比较。我们的实证结果表明,CyTran优于所有竞争方法。此外,我们表明CyTran可以作为改进最先进的医学图像对齐方法的初步步骤。

1、介绍

 接受计算机断层扫描(CT)筛查的患者可能由于过敏[1]或其他疾病(如肌营养不良,导致血肌酐水平低)而无法静脉注射造影剂。然而,造影剂在帮助医生检测和界定某些病变(如恶性肿瘤)方面发挥着非常重要的作用[2]。例如,放射治疗在很大程度上依赖于肿瘤的精确分割。

 当然,大多数患者都足够健康,可以注射造影剂,这使医生能够获得三期CT扫描,从而对恶性病变提供更清晰的图像。三期CT包括自然期(注射造影剂之前)、门静脉期(注射对比剂之后)和晚期动脉期(造影剂进入动脉时)。由于这三个阶段是按连续的时间顺序进行的,因此相应的CT扫描是在不同的时刻进行的,这固有地导致了由患者的轻微运动(例如,由于呼吸)引起的扫描之间的错位。在这种情况下,可以采用一些图像配准方法来对准CT扫描。然而,由于某些类型组织中对比度和非对比度CT之间的Houns-field单位(HU)差异,图像对齐任务变得有问题,尤其是对于肿瘤所在的感兴趣区域。

 在这项工作中,我们提出了一种新的深度学习模型,用于在对比和非对比CT扫描之间进行转换。我们的方法依赖于生成对抗性网络在图像到图像翻译中的成功,这是一类视觉任务,其目标是使用来自两个不同领域的成对或不成对图像的训练集来学习输入图像和输出图像之间的映射。尽管GANs以前曾用于医学图像到图像的转换,但我们强调,由于需要识别特定组织类型、解剖结构甚至肿瘤,在对比度阶段之间表现出显著的HU变化,因此在对比度和非对比度CT扫描之间转换的任务非常具有挑战性。不能识别这样的解剖结构增加了引入不切实际的信息的可能性。这显然会导致不可靠的合成图像,无法用于诊断或治疗目的。卷积神经网络无法识别自然图像中物体的全局结构[9],同样的原因,也无法识别CT扫描中的解剖结构。为此,我们提出了一种循环一致的生成对抗性变换器,称为CyTran,由于合并了变换器块,它具有更高的全局结构识别能力。由于涉及大量可学习参数,纯视觉转换器无法处理高分辨率图像,因此我们设计了一种包括卷积和多头注意力的混合架构,使其能够生成全分辨率CT扫描。

为了证明CyTran在上述重要病例中的适用性,我们介绍了Coltea-Lung-CT100W数据集,该数据集由100例女性患者的3D匿名三相肺部CT扫描组成。对于每个患者,有三次CT扫描,分别对应于自然期、静脉期和动脉期。我们进行了一组实验,将CyTran与其他最先进的风格转移方法进行比较,即CycleGAN[4]、pix2pix[10]和U-GAT-IT[11]。自动评估和人工评估都表明,我们的方法始终优于竞争方法。我们进行了另一组实验,以评估与最先进的3D图像配准方法[12]的非对比CT对准相比,风格转移方法的适用性。虽然实证结果表明,所有风格转移方法都是有帮助的,但CyTran带来了最高的性能改进。

据我们所知,我们的贡献有三方面:

•我们首次在医学成像中提出了一种循环一致的生成对抗性变换器,展示了对比度和非对比度CT扫描之间风格转换的最先进结果。

•我们是第一个公开发布包含三相肺部CT扫描的数据集的组织。

•我们是第一个使用风格转移方法来增强对比度和非对比度CT扫描之间的一致性的组织。

2、相关工作

1、Transformer

基于自注意力的架构,特别是Transformer,已经成为自然语言处理(NLP)中的首选模型。由于Transformer的计算能力和可扩展性,训练规模空前的模型成为可能。随着模型和数据集的规模不断扩大,性能改进也在不断增加。考虑到变换器在NLP中的成功[14],基于多头自注意的架构已被计算机视觉社区采用,在各种任务中取得了优异的结果。吴等人提出了一种卷积Transformer,通过在模型中引入卷积,在性能和效率方面改进了视觉Transformer(ViT),试图利用这两种设计。我们进一步用逐点卷积层取代了吴等人[16]提出的Transformer块中的多层感知器,使我们能够将生成的块合并到一个有效的生成模型中,该模型可以生成高分辨率图像。张等人[17]提出了一种用于语义分割的循环一致注意机制。相反,我们引入了一种基于有效卷积Transformer主干的新生成模型,其中循环一致性被施加在输出级别,而不是潜在特征级别。 在医学成像中,Transformer架构的受欢迎程度正在上升,很可能是因为这些模型带来了最先进的结果。例如,Gao等人提出了一种有效的自我注意机制,该机制降低了心脏磁共振成像(MRI)分割的计算复杂性。在[22]中,作者提出了一种利用交叉注意变换块重建MRI图像的零样本学习方法。Luthra等人提出了一种编码器-解码器网络,该网络使用Transformer块进行CT图像去噪。与基于变换器的医学成像方法不同,我们引入了一种新的卷积变换器架构,用于对比度和非对比度CT图像之间的风格转换,该架构可以通过在损失中使用循环一致性项在未配对的数据上进行训练。据我们所知,这是首次在医学成像中提出循环一致Transformer。

2、图像翻译

自2014年引入GANs以来,大量研究集中在理论和架构变化上,导致GANs在各种生成任务中被广泛采用,包括图像翻译。2016年,pix2pix框架成为首批GAN模型之一,以解决从源域图像(例如春季景观)到相应目标域图像(如冬季景观)的图像到图像转换任务,前提是来自两个不同域的成对图像可用于训练。为了克服风格转换缺乏配对数据集的问题,研究人员开发了非配对图像到图像的翻译方法。朱等人通过使用两个生成器解决了这个问题,一个生成器将源图像翻译到目标域,另一个生成器则将翻译后的图像翻译回源域。两个生成器被优化,使得通过两个生成器的图像接近原始输入图像,确保了框架的循环一致性。

GANs也被用于医学成像,通常用于医学图像翻译。例如,Seo等人提出了一种两阶段算法来解决对比度和非对比度CT图像之间的风格转换问题。第一阶段消除了较差的对准效果,而第二阶段依靠GAN架构来增强CT图像的对比度。其他方法在配对图像可用的应用中使用了pix2pix框架,如正电子发射断层扫描(PET)到MRI的转换、器官分割、MRI到CT的转换和低剂量CT去噪。最近,研究人员开始将CycleGANs用于各种医学成像任务。例如,Kearney等人使用CycleGAN在MRI和CT数据之间进行转换。Modanwal等人提出了一种算法,通过引入两个鉴别器在不同的MRI图像之间进行转换来修改CycleGAN。更接近我们的任务,Chandrashekar等人提出了一种算法,该算法依赖于CycleGAN来增强CT图像的对比度。据我们所知,没有一种相关方法是基于转换器架构的。我们提供的经验证据表明,在对比度与非对比度CT平移和反向方面,循环一致性转换器优于基于pix2pix或CycleGAN的架构。

3、图像配准

医学图像配准是改善视觉检查、诊断和治疗计划的一个基本问题。它是指通过空间变化的变形模型建立一对固定图像和运动图像中的点之间的空间对应关系的任务。最先进的医学图像对齐方法基于深度神经网络。[38]中最近提出的一种配准方法基于递归级联算法,该算法假设在每一步,神经模型都会学习对当前扭曲的图像进行渐进变形。然而,最近在医学图像配准中也采用了应用Transformer的趋势。然而,Chen等人声称,由于连续的下采样操作,仅基于变换器的架构强调了低分辨率特征,导致缺乏影响图像配准性能的详细定位信息。为了缓解这个问题,作者将Transformer与卷积层结合到一个名为ViT-V-Net的架构中,该架构提高了定位信息的恢复。

与其他医学图像配准方法不同,我们使用CyTran作为数据增强方法来提高配准结果。增强包括添加由CyTran合成生成的非对比CT扫描的训练示例。作为第二个贡献,我们通过在推理时使用多个级联来扩展ViT-V-Net[33],从而以相当大的幅度进一步改进了配准结果。

4、数据集

 近年来,对大型医学数据库的开源访问加速了医学成像领域深度学习方法的发展。CHAOS挑战赛的组织者发布了一个包含CT和MRI数据的医学数据集。CT数据是在注射造影剂后的门静脉期从40名患者的上腹部区域获取的。Moen等人开发了299名患者的CT扫描数据集,用于三种类型的临床检查:非对比头部CT扫描、低剂量非对比胸部扫描和腹部对比增强CT扫描。Bilic等人发布了一个由140个CT扫描组成的数据集,每个扫描都标记了五个器官:肺、骨、肝、肾和膀胱。该数据集融合了来自各种来源的例子,包括腹部和全身、造影剂和非造影剂、低剂量和高剂量CT扫描。Moen等人[46]和Bilic等人[47]的数据集包含对比和非对比CT扫描,但这些扫描用于不同的身体切片。相反,我们的数据集包含同一身体部位胸部的对比和非对比CT扫描。据我们所知,ColteaLung-CT-100W是第一个完全由三相肺部CT扫描组成的公共数据集,这意味着每个患者有三次3D扫描,分别对应于自然期、早期门静脉期和晚期动脉期。

3、图像翻译方法

我们提出了一种循环一致的生成对抗性Transformer,该Transformer使用生成视觉Transformer网络在两种不同的对比度(如自然对比度、静脉对比度或动脉对比度)之间转换肺部CT图像。我们的方法受到了循环一致性GANs[4]在风格转换的图像到图像翻译中的成功的启发。基于样式比其他方面(例如几何变形)更容易传递的假设,循环GANs可以用不同的样式替换图像的样式,同时保留其内容。我们的任务涉及在不同对比度阶段采集的肺部CT图像之间的风格转换。对比物质引入特定解剖结构(如肿瘤或血管)的HU变化。然而,除了由患者的小运动(例如由呼吸产生的运动)引起的几何变化之外,结构本身不应在对比阶段之间表现出几何变化。虽然不同对比阶段之间的变化可以被同化为风格变化,但我们强调,这些变化仅适用于特定的解剖结构。因此,为了准确地模拟对比度变化,所采用的风格转移模型应该能够识别解剖结构。我们相信,具备提取和使用全局信息能力的模型具有更高的识别解剖结构的能力。因此,我们推测,在学习再现或解开由对比物质引起的变化的任务中,生成变换器可以优于卷积生成器。

我们提出了一种基于生成对抗性Transformer的循环一致性架构,称为CyTran,用于在不同对比度阶段之间传输CT扫描。根据CycleGAN框架,CyTran由两个鉴别器和两个生成器组成。鉴别器的神经结构与Zhu等人使用的结构相同。在初步评估阶段,我们试图用Transformer取代卷积鉴别器,但我们观察到,这种变化使鉴别器相对于生成Transformer过于强大。出于这个原因,我们将注意力转向仅替换生成模型。接下来,我们将详细描述所提出的生成架构以及整个优化过程。

A、生成卷积Transformer结构

 由于我们的目标是在能够生成高分辨率CT图像的同时,从Transformer的建模能力中获益,我们设计了一种具有可管理数量参数的生成卷积Transformer。如图1所示,我们的Transformer由卷积下采样块、卷积Transformer块和去卷积上采样块组成。我们强调,如果没有卷积下采样块和在转换器块内用卷积层替换密集层,Transformer将无法学习生成大于64×64像素的图像,这是由于内存溢出(在具有24GB VRAM的Nvidia GeForce RTX 3090 GPU上测量)。相反,我们需要一个能够生成512×512像素的CT切片的模型。在这种输入分辨率下,我们的设计变化将可学习参数的数量从2.58亿个显著减少到350万个。

(1)、下采样

 由于我们的目标是在能够生成高分辨率CT图像的同时,从Transformer的建模能力中获益,我们设计了一种具有可管理数量参数的生成卷积Transformer。如图1所示,我们的Transformer由卷积下采样块、卷积Transformer块和去卷积上采样块组成。我们强调,如果没有卷积下采样块和在转换器块内用卷积层替换密集层,Transformer将无法学习生成大于64×64像素的图像,这是由于内存溢出(在具有24GB VRAM的Nvidia GeForce RTX 3090 GPU上测量)。相反,我们需要一个能够生成512×512像素的CT切片的模型。在这种输入分辨率下,我们的设计变化将可学习参数的数量从2.58亿个显著减少到350万个。

(2)、卷积Transformer块

 下采样块之后是卷积Transformer块,其提供与输入张量大小相同的输出张量。我们的卷积变换块受到吴等人提出的块的启发。输入张量

T
T

被解释为一组

h\cdot w
h\cdot w

重叠的视觉标记。在我们的实现中,我们有64·64=4096个token,其中每个token是3×3×128个分量的张量。视觉标记的空间维度由下一个卷积层中滤波器的感受野决定。

(3)、卷积投影

 在普通Transformer中,token序列通常被投影到一组权重矩阵上,以获得查询Q、密钥K和值V。继吴等人之后,通常通过矩阵乘法实现的投影被称为卷积投影的深度可分离卷积运算所取代。卷积投影由三个几乎相同的投影块组成,具有不同的参数。每个投影是由两个卷积层和介于两者之间的批量归一化层形成的深度上可分离的卷积块。

投影块中的第一层是由128个滤波器组成的深度卷积,每个滤波器的感受野为3×3。生成查询的投影块配置为步长1(生成64×64的激活图),而其他投影块使用步长2(生成32×32的激活图)。所有三个块的填充值均为1。输出在进入第三层之前通过批处理规范。第三层应用64个滤波器的逐点卷积。我们在此注意到,在逐点卷积中,滤波器总是具有1×1的空间支持,并且在没有填充的情况下以1的步长应用。最后,通过改变激活图,将输出张量重塑为矩阵,同时保留通道的数量。

 设

W_Q
W_Q

W_K
W_K

W_V
W_V

表示三个投影块的可学习参数。查询、键和值的嵌入计算如下:

 其中

。对于涉及矩阵乘法的后续运算,我们需要

d_q=d_k
d_q=d_k

,并且

n_k=n_v
n_k=n_v

。在我们的实现中,

n_q=4096
n_q=4096

(通过对64×64个激活图进行滤波获得),

n_k=n_v=1024
n_k=n_v=1024

(通过对32×32个激活图滤波获得)。由于所有三个块中逐点卷积中的滤波器数量相等,因此

d_q=d_k=d_v=1024
d_q=d_k=d_v=1024

我们强调,添加卷积投影的目标是从随后的多头注意力层的输出中获得局部空间上下文的额外建模能力。

多头自注意力

卷积投影层之后是多头自注意机制。自我关注的目标是通过根据全局上下文信息对每个实体进行编码来捕捉所有token之间的交互。给定一系列项目,自注意机制估计项目与其他项目的相关性,例如,哪些视觉标记嵌入可能在张量中结合在一起。基本上,自关注层通过聚合来自完整输入张量的全局信息来更新每个视觉标记。

自注意力层的输出可以表示为:

其中

K^T
K^T

K
K

的转置。对于给定的token,自注意力计算具有所有关键字的查询的点积,然后使用softmax算子对其进行归一化以获得注意力分数。然后,每个实体成为序列中所有实体的加权和,其中权重由注意力得分给出。在这一点上,

Z
Z

是4096×64个分量的矩阵。在将4096维向量重新整形为激活图后,我们获得了64×64×64分量的张量。为了在张量

T
T

中封装不同令牌之间的多个复杂关系,我们使用了多头注意力模块。每个头

包括卷积投影和自注意机制,具有一组特定的可学习参数

,其中

n_h
n_h

是头的数量。在我们的实现中,我们设置

n_h=6
n_h=6

 为了形成整个多头注意力模块的输出,我们在通道维度上连接输出张量,获得64×64×384分量的张量。128个滤波器的逐点卷积将输出张量的维数降低到64×64×128个分量。设

Z^*
Z^*

表示多头自注意模块的最终输出张量。我们强调,

Z^*
Z^*

的维数与输入张量

T
T

的维数一致,即

逐点卷积

在多头注意力层之后,输出与卷积投影的输入相加,并被馈送到批量归一化层。与绝大多数Transformer不同,我们引入了逐点卷积块而不是多层感知器作为Transformer块的最后处理步骤,从而进一步减少了可学习参数的数量。我们的卷积块由两个连续的逐点卷积层组成,第一个由512个滤波器组成,第二个由128个滤波器组成。在第一个逐点卷积层之后,我们使用高斯误差线性单元(GELU)。接下来,将范数层的输入添加到逐点卷积块的输出中,从而得到卷积Transformer块的最终输出。

3、上采样块

 我们的卷积Transformer的最后一个块应用上采样操作,被设计为恢复下采样块的变换。上采样块由三个转置卷积层组成,分别包括128、64和32个滤波器。所有内核都有3×3的空间支持,以2的步长应用,使用1的填充。至于下采样块,我们在每个转置卷积层之后引入批量范数和ReLU激活。最后,我们使用带有一个滤波器的卷积层,将信道数量从32个减少到1个。该最终滤波器的感受野大小为7×7。我们使用3的填充来保持空间维度,从而获得512×512像素的输出图像。

B、未配对CT切片上的学习

在本工作的剩余部分中,我们使用以下符号。设(X,Y)表示源域和目标域的对。由于我们感兴趣的是将对比CT扫描转换为非对比CT扫描,反之亦然,因此对(X,Y)可以取以下值之一:(天然,动脉)、(天然,静脉)、(静脉,天然)、(动脉,天然)。出于我们的应用目的,我们对翻译(动脉、静脉)和(静脉、动脉)对不感兴趣。设x分别表示来自域x的样本和y表示来自域y的样本。

 在图2中,我们说明了属于不同对比度域的两个CT图像基于周期一致性的生成过程。使用生成变换器

G
G

将源CT图像

x
x

转换为

\hat{y}
\hat{y}

,以使

\hat{y}
\hat{y}

看起来属于目标域。通过生成变换器

F
F

将目标CT图像

\hat{y}
\hat{y}

翻译回原始域

X
X

。生成变换器

G
G

被优化以欺骗鉴别器

D_Y
D_Y

,而鉴别器

D_Y
D_Y

被优化以对抗性方式将合成CT图像与真实样本分离。此外,针对在原始样本

x
x

和循环生成的CT样本

\hat{x}
\hat{x}

之间计算的重建误差对网络进行了优化。将重建误差添加到总体损失函数中可确保域X的循环一致性。执行类似的训练过程以确保域

Y
Y

的循环一致。优化CyTran以在两个方向上进行对比度转换的完整损失函数为:

 其中,G和F是生成Transformer,

D_X
D_X

D_Y
D_Y

是卷积鉴别器,

x
x

是来自对比相位

x
x

的CT切片,

y
y

是来自对比阶段

y
y

的CT切片。

\lambda
\lambda

是控制循环一致性相对于两个GAN损失的重要性的参数。第一个GAN损失是与从域

X
X

到域

Y
Y

的转换相对应的最小二乘损失: 

其中

E[\cdot]
E[\cdot]

是期望值,

P_{data}(\cdot)
P_{data}(\cdot)

是数据样本的概率分布。类似地,第二GAN损失是对应于从域

Y
Y

到域

X
X

的平移的最小二乘损失:

 方程(3)中的循环一致性损失定义为两种翻译的循环一致度损失之和:

 其中

||\cdot||
||\cdot||

l_1
l_1

范数。 

4、图像匹配方法

无监督的医学图像配准可能无法将对比CT扫描与非对比CT扫描正确对齐,尤其是在造影剂突出显示的区域,这是主要关注的。为了缓解这种失败的情况,我们建议在对比CT扫描中使用CyTran,以消除造影剂引起的差异。 设

x\in X
x\in X

表示属于造影相

X
X

(静脉或动脉)的源3D CT扫描,

y\in Y
y\in Y

表示属于非造影相

y
y

(自然)的目标3D CT扫描。在将x到y中的体素对齐之前,我们将CT扫描

x
x

中的所有切片转换为分布

y
y

,从而获得

。然后,我们将

x
x

y
y

对齐,两者都属于同一分布

y
y

,并获得位移场

。最后,我们将位移场

应用于

x
x

,以获得最终对准结果。 为了进行比对,我们依赖于Chen等人引入的最先进的ViT-V-Net模型。该模型通过一系列卷积和最大池化层将全分辨率输入编码为高级特征表示。接下来,将得到的补丁馈送到基于变换器的编码器中,该编码器由12个交替的多头自注意块和密集层组成。最后,将结果解码为密集位移场。 作为另一个贡献,我们将ViT-V-Net扩展到级联注册算法,如图3所示。设R为配准模型,

为运动三维图像,

为扭曲图像,使得

。我们建议在推理时应用多个级联,通过将输出多次传递给模型:

递归处理逐渐减少对齐差异,从而获得优异的结果。

5、数据集

 我们发布了一个名为Coltea-Lung-CT-100W的新数据集,该数据集由100次三相肺部CT扫描组成。这些扫描是从100名女性患者身上采集的,代表了相同的身体部位。所选择的切片具有作为解剖学标志的第7颈椎骨的颅骨和第12颈椎骨的尾部。三相扫描由自然(非对比)扫描、早期门静脉扫描和晚期动脉扫描组成。在我们的数据集中,形成三相扫描的三次CT扫描总是具有相同数量的切片,但不同患者的切片数量可能不同。每次扫描的切片数在64到229之间,切片总数为37290。CT切片的大小为512×512像素,切片厚度在1.25到3毫米之间。像素的分辨率为1×1平方毫米。我们将数据集分为三个子集,一个子集用于训练(70次扫描),一个子集中用于验证(15次扫描)和一个子集进行测试(15次)。我们在表I中报告了每个子集中的切片数量。

6、实验

我们在Coltea-Lung-CT-100W上研究了两项任务:

•对比和非对比CT切片之间的风格转换,考虑以下对比阶段:自然→静脉的,静脉的→本地,本地→动脉,动脉→出生地的

•对比CT扫描与非对比CT扫描的体积图像配准,考虑以下对:静脉→天然,动脉→出生地的

A、风格迁移实验

 1、基线

我们将CyTran与三种最先进的风格转移方法进行比较。由于我们的数据集适合成对风格转移,我们将pix2pix作为第一个基线。由于CyTran是一种能够从未配对图像中学习的方法,我们从同一类方法中又选择了两个基线,即CycleGAN和U-GAT-IT。我们注意到,基于GAN的风格转移方法可能会在生成过程中引入视觉伪影,这在医学实践中可能会有问题。因此,我们认为将生成模型与无转移基线进行比较很重要,无转移基线只是输出未处理的输入图像。如果这个基线优于生成模型,则表明相应的模型是不可靠的,从而引入了太多工件。

2、绩效评估

我们报告了源扫描中的第i个平移图像和对应目标扫描中具有相同索引i的切片之间的平均绝对误差(MAE)、均方根误差(RMSE)和结构相似性指数测度(SSIM)。SSIM测量保持原始结构不变的能力,而MAE和RMSE测量转移所需风格的能力,例如提高天然肿瘤HU水平的能力→静脉式转移。 此外,我们请了三名医生(两名放射治疗师和一名肿瘤学家)独立投票选出四种类型的转移方法中最好的:pix2pix、CycleGAN、U-GAT-IT和CyTran。医生们从测试集中随机挑选了200个病例进行了评估。我们为四对造影剂中的每一对选择了50个病例。注释者被指示分析翻译的图像,以便观察结构变形、相对于目标图像的对比度变化的正确性以及相对于输入CT图像的视觉伪影的发生。在注释过程中,我们没有向医生透露模型和翻译图像之间的匹配。对于每一个病例,翻译的图像都是随机的,因此医生不可能知道哪种翻译方法产生了特定的图像。作为评估指标,我们报告每种方法的票数和相应的百分比。

3、数据处理

 为了避免使用高值并确保深度学习模型的稳定训练,我们通过减去截距将原始体素值转移到HU尺度,并将所得值除以1000。我们将此预处理应用于所有模型,包括基线。

4、超参数调整

 我们使用Adam在70个时期,在两个例子的小批量上从头开始训练所有生成模型。对于基线方法,我们设置了所有超参数,如作者介绍各自模型[4]、[10]、[11]所示。对于我们的方法,我们将学习率设置为10−4,保留Adam其他参数的默认值。继朱等人[4]之后,我们将控制方程(3)中循环一致性重要性的权重设置为

\lambda = 1
\lambda = 1

5、定量结果

 我们在四个对比对上进行了风格转移实验,将我们的方法与三种最先进的方法和无转移基线进行了比较。相应的结果如表二所示。首先,我们观察到CyTran是唯一一种在所有对比度对和评估指标中始终超过无转移基线的方法。例如,我们的方法是唯一一种能够超过动脉无转移基线的方法→本地传输。尽管pix2pix可以利用数据集的配对性质,但它似乎产生了最低的性能水平,被CycleGAN、U-GAT-IT和CyTran超越。总之,我们的方法在每次实验中都达到了最高的性能水平,总是优于基线。这一结论支持了我们的推测,即CyTran是一种更适合在对比度和非对比度CT图像之间进行风格转换的方法。

6、人主观评价结果

虽然MAE、RMSE和SSIM指标表明我们的方法是明显的赢家,但相对于第二好模型的性能改进似乎相当小。为了更好地评估生成模型之间的性能差异,我们将注意力转向基于三位独立医生提供的注释(投票)的主观评估研究。相应的结果如表III所示。 研究表明,在所有类型的转移实验中,我们的方法都被三位医生投票选为获胜者。值得注意的是,即使医生们不知道哪种方法产生了哪种图像,CyTran也从每位医生那里获得了超过50%的选票。CyTran记录的最低百分比是1号医生,他认为我们的解决方案在200例病例中的113例(56.5%)是最方便的。尽管如此,CyTran还是以37.5%的优势超过了第二好的模型CycleGAN。Doctor#3对我们的模型最为有利,在200例病例中有152例(76%)投票支持CyTran。相比之下,U-GAT-IT,在Doctor#3看来排名第二的模型,只获得了200张选票中的20张(10%)。总之,所有医生都认为CyTran比其他最先进的翻译模式要好得多。

7、定性分析

 在图4中,我们为四个对比度对中的每一个提供了一个随机采样的情况。我们观察到,pix2pix存在视觉伪影,如肩胛骨不连续或肋骨皮质消失,如在天然→动脉平移。此外,软组织的噪声增加,并且没有关于血管对比度的附加有用信息。当使用pix2pix从动脉转换为天然时,结构似乎发生了严重变化:肋骨完全分离,肌肉边缘发生了变化,血管分化困难。与pix2pix方法类似,U-GAT-IT在骨骼周围创建了一个虚假的扭曲光环。肺实质的质量没有明显改变,血管和软组织的外观也很难区分。CycleGAN会增加噪声,尤其是在高对比度区域周围,如在原生环境中所见→动脉平移。骨结构附近的软组织,如肩胛骨或肋骨,具有结构变形的晕圈。这种方法还在CT图像上创建网格状纹理,这会扭曲结构完整性并增加视觉伪影的数量。相反,CyTran并没有像在静脉中看到的那样,遭受关于结构、组织一致性和边缘的信息损失→右乳腺肿瘤的自然翻译。CyTran的真正好处在于从原生CT扫描转换为生成的动脉或静脉CT扫描,因为相对于原生图像获得了相当多的信息,即使血管没有参考图像中那么亮。

B、体积配准实验

1) 基线:作为基线,我们考虑了三种最先进的无监督医学图像注册方法:一级音量调整网络(VTN)、三级VTN和ViT-V-Net。 2) 性能指标:由于我们的数据集不包含任何标记的分割图,我们认为性能指标适用于评估无监督配准方法,该方法量化了对齐移动结构的能力,而不会损害CT扫描的完整性。因此,我们报告了扭曲扫描(对准结果)和参考扫描之间的MAE和SSIM。 3) 数据预处理:我们采用与风格转移实验相同的数据预处理步骤。 4) 超参数调整:我们使用级联VTN和ViT-V-Net的作者指出的超参数从头开始训练所有网络,除了小批量大小,我们将其减少到两个数据样本,以便我们可以在单个GPU上训练每个模型。

 对于我们的方法,我们引入了两个超参数:增加率和级联步骤的数量。增强率表示用风格转移方法处理并添加到训练集中的训练数据的百分比。我们考虑的增长率范围从10%到100%,设定为10%。对于级联步骤的数量,我们考虑1到4之间的所有值。我们在验证集上调整这些超参数,报告验证集上发现的最佳配置的测试结果。

5、定量的结果

在表IV中,我们展示了在CyTran翻译的图像上训练的3级ViT-V-Net框架与基于级联VTN和ViTV-Net的三种最先进方法之间的比较结果。此外,我们展示了通过从我们的模型中移除级联或CyTran获得的消融结果。我们还报告了在我们的竞争对手翻译的图像上训练的ViT-V-Net模型的结果:pix2pix、U-GAT-IT和CycleGAN。 首先,我们观察到,在pix2pix翻译的图像上训练ViT-V-Net会损害性能,导致两个静脉的结果都更差→天然和动脉→本地配对,与香草ViT-V-Net相比。相比之下,U-GATIT、CycleGAN和CyTran带来了性能增益,这表明我们在配准之前将源CT扫描的样式转移到目标CT扫描的想法是有用的。在这三款机型中,CyTran的性能提升最高,再次显示出其优于pix2pix、U-GATIT和CycleGAN的优势。 有趣的是,我们在递归级联中引入ViT-V-Net的想法也很有用。这一观察结果得到了以下事实的证实:3级ViT-V-Net的性能优于ViT-V-Net,以及3级ViT-V-Net+CyTran的性能优于ViT-V-Net+CyTran。为了进一步证实我们的观察结果,我们在图5中给出了ViT-V-Net和ViT-V-Net+CyTran的各种级联步骤的结果。我们观察到,拥有一个以上的级联比基线有了相当大的改进。对于这两种方法,动脉的3个级联获得了最高的增益→天然配对和2个静脉级联→原生配对。总之,经验结果表明,我们基于CyTran式转移的递归级联ViT-V-Net是非对比CT扫描配准的最佳方法,超过了所有基线和消融模型。

7、结论

 在本文中,我们介绍了医学成像中的循环一致卷积变换器。我们采用我们的方法在对比度和非对比度CT扫描之间转换风格,表明它优于pix2pix、U-GAT-it和CylenGAN等最先进的方法。此外,我们发现CyTran为最先进的医学图像配准方法带来了显著的改进。我们工作的一个重要贡献是Coltea-Lung-CT-100W,这是一个新的三相CT扫描数据集,共包括37290张图像。在未来的工作中,我们的目标是将我们的配准结果应用于提高多图像超分辨率和病变分割。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 1、介绍
  • 2、相关工作
    • 1、Transformer
      • 2、图像翻译
        • 3、图像配准
          • 4、数据集
          • 3、图像翻译方法
            • A、生成卷积Transformer结构
              • 3、上采样块
                • B、未配对CT切片上的学习
                • 4、图像匹配方法
                • 5、数据集
                • 6、实验
                  • A、风格迁移实验
                    • B、体积配准实验
                    • 7、结论
                    相关产品与服务
                    NLP 服务
                    NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
                    领券
                    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档