Nat. Commun.｜半监督深度聚类方法Smile-GAN：从大脑结构中识别阿尔茨海默症

DrugAI

发布于 2021-12-22 14:36:29

6820

文章被收录于专栏：DrugAIDrugAI

编译 | 郭梦月审稿 | 厉小明

本文介绍了宾夕法尼亚大学生物医学图像计算与分析中心的Zhijian Yang和Ilya M. Nasrallah等共同发表在Nature Communications的研究成果：本文提出了Smile-GAN模型（半监督聚类生成对抗网络），这是一种半监督深度聚类方法，它能够通过神经成像特征识别阿尔茨海默疾病亚型。通过在数据集上的训练，Smile-GAN确定了四种神经变性模式，将该框架应用于纵向数据，又确定了疾病的两种发展进程，它可以预测神经变性的途径和速率，这为精准诊断和定向临床试验提供了方向。

1.研究背景

神经精神疾病通常在神经影像学和临床表型上具有很强的异质性，这是对疾病精确诊断和预后的一大挑战。深度学习方法在医学成像应用上取得了优秀的成果，并在获得具有诊断和预后价值的神经成像特征方面展现出了巨大的潜力。在此背景下，本文提出了Smile-GAN模型，通过识别疾病亚型来研究疾病的异质性，这些疾病亚型具有不同的发展模式，且对治疗有不同的反应。

2.模型与方法

2.1 Smile-GAN模型（半监督聚类生成对抗网络）

Smile-GAN是一种生成式对抗网络架构，下图是Smile-GAN的总体结构。

图1 Smile-GAN的总体结构

其中CN组表示正常对照组，PT组表示病人组，SUB组表示模式子类型。Smile-GAN的总体思路：该模型旨在学习从CN组到PT组的多个映射。图1.b是Smile-GAN的原理图，从该图中可以看出，该模型的思想是通过学习从X*Z到Y的映射函数ｆ和从Y到Z的聚类函数ｇ来实现的。图1.c中展示了图1.b中三个函数的架构：蓝色箭头表示一个线性变换后面跟着一个Leaky ReLU激活函数，绿色箭头表示一个线性变换后面跟着一个softmax函数，红色箭头表示只有一个线性变换。总而言之，该模型的总体架构是学习从CN组(或者称为域X: CN数据集)到患者组(或者称为域Y: PT数据集)的一对多映射。

图2 Smile-GAN的概念概述

Smile-GAN模型的概念概述图给出了疾病相关变异区域和非疾病相关变异区域的清楚表示。蓝线表示在正常对照组(CN)和患者组中观察到的非疾病相关的变异。红色区域代表只存在于患者群体中的疾病效应。Smile-GAN通过从正常对照组数据到患者数据的聚类转换找到神经模式类型。

3.实验结果

3.1Smile-GAN模型在合成和半合成数据集上的验证

Smile-GAN模型在合成数据集上的实验验证了该模型在捕捉异质性疾病相关变异的同时，不被非疾病相关变异所混淆的能力。映射函数捕捉了所有萎缩的区域，同时几乎完美地避开了所有非疾病相关变异的区域。

Smile-GAN模型在半合成数据集上的实验，使用了真实的MRI ROI数据，但在部分的ROI中人工加入了脑萎缩特性，进一步验证了该模型在更真实的场景下避开非疾病相关变异区域的能力。

经验证，在检测模式类型方面，该模型的性能优于其他水平先进的半监督聚类方法和传统的聚类方法。

3.2四种神经变性模式

在ADNI2/GO数据集上进行训练，并通过置换检验进行验证，Smile-GAN确定了四种疾病的脑萎缩模式。

图3 正常对照组和四种模式的典型样本之间的Voxel-wise统计比较

与正常对照组相比，属于不同模式的样本表现出不同的萎缩特征，如图3所示。

图4 样本的模式分布图

通过交叉验证实验发现这四种模式是可重叠的。菱形图给出了样本模式分布的形象化表达。P1、P2、P3、P4分别表示四种模式，横轴表示p1和p4的概率，对角线表示p2(实线)和p3(虚线)概率。样本点的颜色是它的主导模式的颜色，样本在每个模式上的伪概率反映了模式和模式子类型在样本中的表达水平。由于每一个样本的P1和P4都不会同时大于0，因此所有的模式分布组合都可以在这个菱形图中表示。

根据实验结果，可以直观地解释这四种模式:

P1，与正常对照组相比，大脑没有明显的萎缩;

P2，轻度弥漫性萎缩，伴广泛轻度皮质萎缩，内侧颞叶无明显萎缩;

P3，局灶性内侧颞叶萎缩，海马和前内侧颞叶皮质局部萎缩，其他部位相对保留;

P4，晚期萎缩，表现为全脑严重萎缩，包括严重颞叶萎缩。

实验对不同的、独立的阿尔茨海默病患者数据进行模型训练时，发现这四种模式具有高度的重叠性，进一步证明了这些模式仅是阿尔茨海默的保守模式。

P3型包括那些可能有边缘性神经病理的人，P2型包括那些可能有海马神经病理的人，而P2 - P3混合型可能是更典型的阿尔茨海默病人。

3.3 两种疾病发展进程

图5 纵向数据子样本中模式概率随时间的演化图

从实验结果图中可以看出，在基线时P1特征占主导的样本，在短期内表达P2或P3的可能性增加，随后表达P4模式。在基线时P2或P3占主导表达的样本表现出其他模式的次要表达。P2和P3的样本在之后都会有P4增加的概率。在基线时P4概率最高的样本，随着时间的推移，P4的表达更强。

从这些结果，可以得出结论，P1-2-4和P1-3-4是神经退行性变的两个一般MRI进展途径。

图6 模式发展进程图

图中显示了一些有代表性的样本在一段时间内的详细发展途径。虚线表示样本从P1到P4的时间是5年，而实线表示的是样本从P1到P4的时间超过10年。

这些例子表明，尽管遵循相似的发展路径，样本在模式纯度和进程速度上也是存在差异的。举个例子，虽然图中紫色表示的样本在进展过程中，表现出的P3概率都比P2更高，但它的实线更接近于P2三角形，说明该样本对P2的表达相对较强。

4.总结

Smile-GAN模型的主要优点：它是一种数据驱动的方法，除神经成像数据外，它还能够应用于其他类型的数据来提取特征，能够有效地根据任何选定的疾病相关特征做正常样本到患者样本的聚类转换。因此，它适用于任何在成像或其他类型生物医学数据中具有类似变化模式的疾病，包括但不限于其他神经退行性疾病和神经精神疾病。

局限性：对照组的选择，会对结果产生关键影响。因此在实验中，微小的萎缩可能无法被模型清楚地识别到。

未来展望：Smile-GAN的模型架构很灵活，可应用于基于体素的分析，以及非结构化MRI数据和非成像数据，将现有的框架扩展应用于其他类型的数据是模型未来可发展的方向。

参考资料

Yang, Z., Nasrallah, I.M., Shou, H. et al. A deep learning framework identifies dimensional　representations of Alzheimer’s Disease from brain structure. Nat Commun 12, 7065 (2021).

https://doi.org/10.1038/s41467-021-26703-z

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-12-19，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习