前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >BRAIN:用于阿尔茨海默病分类的可解释深度学习框架的开发和验证

BRAIN:用于阿尔茨海默病分类的可解释深度学习框架的开发和验证

作者头像
用户1279583
发布2020-07-15 15:01:53
1.7K0
发布2020-07-15 15:01:53
举报
文章被收录于专栏:思影科技思影科技

阿尔茨海默症是全世界痴呆症的主要病因,随着人口老龄化,患病负担不断增加,在未来可能会超出社会的诊断和管理能力。目前的诊断方法结合患者病史、神经心理学检测和MRI来识别可能的病例,然而有效的做法仍然应用不一,缺乏敏感性和特异性。在这里,本文报告了一种可解释的深度学习策略,该策略从MRI、年龄、性别和简易智力状况检查量表(mini-mental state examination ,MMSE) 得分等多模式输入中描绘出独特的阿尔茨海默病特征(signatures)。该框架连接了一个完全卷积网络,该网络从局部大脑结构到多层感知器构建了疾病概率的高分辨率图,并对个体阿尔茨海默病风险进行了精确、直观的可视化,以达到准确诊断的目的。该模型使用临床诊断的阿尔茨海默病患者和认知正常的受试者进行训练,这些受试者来自阿尔茨海默病神经影像学倡议(ADNI)数据集(n = 417),并在三个独立的数据集上进行验证:澳大利亚老龄化影像、生物标志物和生活方式研究(AIBL)(n = 382)、弗雷明汉心脏研究(FHS)(n = 102)和国家阿尔茨海默病协调中心(NACC)(n = 582)。使用多模态输入的模型的性能在各数据集中是一致的,ADNI研究、AIBL、FHS研究和NACC数据集的平均曲线下面积值分别为0.996、0.974、0.876和0.954。此外,本文的方法超过了多机构执业神经科医生团队(n = 11)的诊断性能,通过密切跟踪死后组织病理学的损伤脑组织验证了模型和医生团队的预测结果。该框架提供了一种可适应临床的策略,用于使用常规可用的成像技术(如MRI)来生成用于阿尔茨海默病诊断的细微神经成像特征;以及将深度学习与人类疾病的病理生理过程联系起来的通用方法。本研究发表在BRAIN杂志。

研究背景

全球仍有数百万人受到阿尔茨海默病的困扰,而开发有效的疾病修正疗法的尝试仍然停滞不前。尽管使用脑脊液(CSF)生物标志物以及PET淀粉样蛋白和tau成像来检测阿尔茨海默病病理已经取得了巨大的进展,但这些方式往往仍然局限于研究背景。目前的诊断标准依赖于高度熟练的神经科医生进行检查,包括询问患者病史,客观的认知评估,如简易智力状况检查量表(MMSE)或神经心理学测试,以及结构性MRI以排除某些疑似阿尔茨海默病的结果。临床病理研究表明,临床医生的诊断敏感性在70.9%~87.3%之间,特异性在44.3%~70.8%之间。虽然核磁共振揭示了阿尔茨海默病特有的大脑变化,如海马和顶叶萎缩,但这些特征被认为对基于影像学的阿尔茨海默病诊断缺乏特异性。鉴于这种相对不精确的诊断环境,以及CSF和PET诊断的侵入性以及缺乏具有足够阿尔茨海默病诊断专业知识的临床医生,先进的机器学习范式,如深度学习(LeCun等人,2015年;Hinton,2018年;Topol,2019年),提供了从神经科实践范围内收集的MRI数据中获得高精度预测的方法。

最近的研究已经证明了深度学习方法的应用,如卷积神经网络用于MRI成像和基于多模态数据的认知状态分类。尽管取得了令人振奋的成果,但由于以下几个原因,这些模型尚未实现与临床实践的全面结合。首先,由于大多数模型都是在单一数据集上进行训练和测试,因此缺乏对深度学习算法的外部验证。其次,生物医学界越来越多的人认为深度学习模型是“黑箱”算法。换句话说,尽管深度学习模型在对许多疾病进行分类时精度非常高,但它们既没有阐明底层的诊断决策,也没有指出与输出的预测相关的输入特征。最后,考虑到阿尔茨海默病发病的不确定性和症状的异质性,阿尔茨海默病的在计算层面预测的个体水平特征仍未解决。考虑到这些因素,本文作者指出深度学习的临床潜力因缺乏单一数据集驱动模型的外部验证,以及越来越多地使用不透明的决策框架而被削弱。因此,克服这些挑战不仅对利用深度学习算法的潜力来改善患者护理至关重要,而且还为医学影像界可解释的循证机器学习铺平了道路。

为了解决这些局限性,本文开发了一种新型的深度学习框架,将完全卷积网络(FCN)与传统的多层感知器(MLP)连接起来,对阿尔茨海默病风险进行高分辨率可视化,然后用于准确预测阿尔茨海默病状态(图1)。作者选择了四个不同的数据集进行模型开发和验证:阿尔茨海默病神经影像学倡议(ADNI)数据集、澳大利亚老龄化影像、生物标志物和生活方式研究(AIBL)、弗雷明汉心脏研究(FHS)和国家阿尔茨海默病协调中心(NACC)(表1和补充图1)。模型预测与神经病理学研究结果的关联,以及与神经学家团队对模型性能的正面(head-to-head comparison)比较,都显示了深度学习框架的有效性。

补充图1:受试者选择标准。在每个数据集中,从参与者中选择T1加权1.5T MRI(更多细节见方法)。只有在AD诊断或最后一次确诊的临床就诊(在NC参与者的情况下)6个月内收集的MRI被纳入分析。将ADNI数据以3:1:1的比例分割为训练、验证和测试集,并将完全训练好的模型应用于NACC、FHS和AIBL,以评估模型的泛化能力。

图1.深度学习框架示意图。

FCN模型是使用基于patch的策略开发的,其中从T1加权全MRI体积中随机选择的样本(大小为47×47×47个体素的子体)被传递给模型进行训练(步骤1)。对应的个体的阿尔茨海默病状态作为分类模型的输出。鉴于FCNs的操作与输入数据大小无关,该模型最终生成特定于个体大脑的疾病概率图(步骤2)。从疾病概率图中选出高危体素,然后传递给MLP进行疾病状态的二元分类(步骤3中的模型A;MRI模型)。作为进一步的对照,只使用非影像学特征,包括年龄,性别和MMSE,并开发了一个MLP模型,以分类阿尔茨海默病和那些健康的参与者(步骤3中的模型B;非影像学模型)。

本文还开发了另一个模型,该模型集成了多模式输入数据,包括选定的高危疾病概率图的体素,以及年龄、性别和MMSE得分,以执行二元分类的阿尔茨海默氏病状态(步骤3中的模型C;融合模型)。AD=阿尔茨海默病;NC=正常认知。

材料和方法

参与者和数据收集

研究中使用了ADNI、AIBL、FHS和NACC数据集中的数据(表1和补充图1)。ADNI是一项纵向多中心研究,旨在开发临床、影像、基因和生化生物标志物,用于阿尔茨海默病的早期检测和追踪(Petersen等,2010)。AIBL于2006年启动,是澳大利亚同类研究中规模最大的,旨在发现影响症状性阿尔茨海默病发展的生物标志物、认知特征和生活方式因素(Ellis等,2010)。FHS是一项纵向的社区数据集研究,已经收集了三代人的广泛临床数据(Massaro等,2004)。自1976年以来,FHS扩展到评估导致认知衰退、痴呆和阿尔茨海默病的因素。最后,1999年成立的NACC,维护着一个大型关系数据库,该数据库包含了从美国各地阿尔茨海默病中心收集的标准化临床和神经病理研究数据(Beekly等,2004)。

模型训练、内部验证和测试都是在ADNI数据集上进行的。在对ADNI数据进行训练和内部测试后,验证了对AIBL、FHS和NACC的预测。选择的标准包括年龄≥55岁,自临床确诊阿尔茨海默病或认知正常之日起±6个月内拍摄的1.5T、T1加权MRI扫描的个体(补充图1)。排除了包括阿尔茨海默病合并混合性痴呆、非阿尔茨海默病痴呆、严重创伤性脑损伤史、严重抑郁症、脑卒中和脑肿瘤以及偶然发生的重大系统性疾病的病例。需要注意的是,这个纳入和排除标准是从ADNI研究(Petersen等,2010)制定的基线招募方案中调整而来的,为了保持一致性,同样的标准也适用于其他数据集。这导致从ADNI数据集中选择了417人,从AIBL中选择了382人,从FHS参与者中选择了102人,从NACC数据集中选择了565人。如果一个人在时间窗口内有多次MRI扫描,那么我们选择最接近临床诊断日期的扫描。对于这些选定的大多数病例,年龄、性别和MMSE评分都是可用的。

算法设计

本文设计了一个FCN(完全卷积网络)模型,输入体素大小为181×217×181的配准好的voxel水平的MRI图像,并输出每个位置的阿尔茨海默病等级的概率。使用了一种新颖的、计算效率高的基于patch的训练策略来训练FCN模型(图1)。这个过程涉及从每个训练对象的MRI扫描中随机抽取3000个大小为47×47×47个体素的体积patch,并使用这些信息来预测感兴趣的输出(补充图2)。patch的大小与FCN的感受野(receptive field)大小相同。

补充图2:用于FCN训练的最佳patch数量的选择。图中显示了FCN模型性能作为用于训练的patch数量的函数。y轴表示在疾病概率图的所有体素上计算的平均验证精度。请注意,平均性能是在五个独立的模型运行上计算出来的。

FCN由六个卷积块组成(补充表1)。前四个卷积块由一个3D卷积层组成,后面紧跟:3D最大池化(3D max pooling)、3D批量归一化(3D batch-normalization)、Leaky Relu和Dropout。最后两个卷积层在分类任务方面起到了全连接层(dense layers)的作用,这两个层在提升模型效率方面起到了关键作用(Shelhamer等人,2017)。该网络是用随机初始化的权重从头进行训练的。我们使用了Adam优化器,学习率为0.0001,mini-batch大小为10。在训练过程中,当模型在ADNI验证数据集上取得最低的误差时,模型被保存。在FCN训练后,一幅MRI图像被完整处理并报告,以获得完整的疾病概率阵列,即疾病概率图。训练完成后,从测试样本中获取疾病概率图的过程在NVIDIA GTX Titan GPU(不错,很高端)上需要大约1s。

补充表1:针对以patch为基础的训练和体数据整体应用的FCN架构和超参数总结。FCN模型在大小为47x47x47的patch上进行训练,以便从随机采样的子体积数据中产生AD状态的标量(1x1x1)预测。在网络内的每个卷积步骤之后,在通过Leaky ReLU函数激活之前都要进行最大池化和批量归一化。通道深度、内核大小、填充和步长超参数与网络每一步的dropout概率一起显示。将相同的模型架构应用到全尺寸图像中,产生了尺寸为46x55x46的3D张量,该3D张量可以通过传递到softmax函数转化为疾病概率图。

【译者注:

Max-pooling:下采样,做了特征选择,选出了分类辨识度更好的特征,提供了非线性,更多的保留纹理信息。

Batch Normalization:批量归一化, 和普通的数据标准化类似, 是将分散的数据统一的一种做法。

Dropout:我们在前向传播的时候,让某个神经元的激活值以一定的概率p停止工作(随机丢弃),这样可以使模型泛化性更强,因为它不会太依赖某些局部的特征。

Leaky ReLU :ReLU函数为非线性激活函数,代表的的是“修正线性单元”,它是带有卷积图像的输入x的最大函数(x,o)。 ReLU是将所有的负值都设为零,相反,Leaky ReLU是给所有负值赋予一个非零斜率。】

FCN是通过重复应用于从一个完整体积的顺序MRI图像中随机采样的体素的立方体patches来训练的。由于卷积通过连续的网络层减小了输入尺寸(the convolutions decrease the size of the input),因此选择每个patch的大小使每个patch的最终输出的形状等于2×1×1×1(补充表1);即在训练期间,FCN对每个patch的处理产生了两个标量值的列表。这些值可以通过应用softmax函数转换为各自的阿尔茨海默病和正常识别概率,然后用这两个概率中较大的一个来进行疾病状态的分类。通过这种方式,该模型被训练成通过对大脑结构的局部状态来对整体疾病状态进行推测。

在生成所有受试者的疾病概率图后,利用一个MLP模型框架,通过从疾病概率图中选择阿尔茨海默病的概率值,进行二元分类来预测阿尔茨海默病状态。这种选择是基于通过对ADNI训练数据使用Matthew相关系数值分析进行估计,对FCN分类器整体性能表现的观察。具体来说,我们从200个固定的位置中选择了疾病概率图体素,这些位置被认为具有较高的Matthew相关系数值(补充表2)。从这些位置提取的特征作为MLP模型的输入,该模型对阿尔茨海默病状态进行二元分类(图1中的MRI模型,步骤3)。另外开发了两个MLP模型,其中一个模型使用年龄、性别和MMSE评分值作为输入来预测阿尔茨海默病状态(图1中的非影像学模型,步骤3),另一个MLP将200个特征与年龄、性别和MMSE评分一起作为输入来预测阿尔茨海默病状态(图1中的融合模型,步骤3)。所有的MLP模型都由一个隐藏层和一个输出层组成(补充表3)。MLP模型还包括ReLu和Dropout等非线性算子(non-linear operators)。

【译者注:

MLP模型:即多层感知机(MLP,Multilayer Perceptron),也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构。多层感知机层与层之间是全连接的(全连接的意思就是:上一层的任何一个神经元与下一层的所有神经元都有连接)。多层感知机最底层是输入层,中间是隐藏层,最后是输出层。】

补充表2:MCC热图上的最佳体素选择。MLP模型的平均性能作为所选体素数量的函数,以定义与AD状态最相关的区域。这个结果是在ADNI验证数据集上生成的。

补充表3.仅使用MRI模型、非成像模型和融合模型所使用的MLP架构总结。每个MLP模型由两个全连接层组成。在每个全连接层之前,使用0.5的dropout值来正则化模型。在每个全连接层之后,使用Leaky ReLu激活。对于仅使用MRI的模型,还在每个全连接层之前加入了一个批次归一化层。

图像配准、强度归一化和MRI体积分割

从所有数据集的MRI扫描获得NIFTI格式。使用MNI152模板(ICBM 2009c非线性对称模板,麦吉尔大学,加拿大)配准所有扫描。我们使用FSL软件包(威康中心,牛津大学,英国)提供的FLIRT工具,将扫描图像与MNI152模板对齐。对配准的图像进行仔细的手动检查,发现自动配准在绝大多数ADNI、AIBL和NACC病例上做得相当好。对于没有配准好的病例(主要是FHS内),进行了仿射变换,以已知区域作为对照标准(landmark)进行人工配准。考虑到可能不存在适用于所有MRI扫描的配准方法,我们的两步过程产生了一组合理的配准图像。

图像配准后,对所有体素的强度进行归一化[平均值=0,标准差(SD)=1]。然后,通过将这些体素和其他异常值修正到以下范围来调整它们的强度:[-1,2.5],其中强度低于-1的任何体素的值都被指定为-1,强度高于2.5的体素的值被指定为2.5。然后,进行背景去除,其中颅骨外背景区域的所有体素都被设置为-1,以确保单一的背景强度。

来自FHS数据集的11个个体的体积MRI扫描的皮质和皮质下结构,以及大脑的解剖结构,使用Freesurfer进行了分割(Fischl,2012)。Freesurfer的内置功能,如 "recon-all","mri_annotation2label","tkregister2","mri_label2vol","mri_convert "和 "mris_calc "被用来获得分割的结构。

神经病理学验证

通过将预测的大脑区域与尸检结果重叠,验证了FCN模型识别阿尔茨海默病高风险区域的能力。对来自FHS数据集的11个尸检的大脑进行了组织病理学评估,11人中有4人确诊为阿尔茨海默病。在神经病理评价过程中,对所有人口学和临床信息进行了盲法评估。神经病理评估的详细描述之前已经报道过(Au等人,2012)。在这项研究中,检查了从皮质和皮质下区域内提取的石蜡包埋切片中的神经纤维缠结、弥漫性斑块、神经炎性老年斑或致密性老年斑。用Bielschowsky银染色法对切片进行染色。对磷酸化的tau蛋白(Innogenetics, AT8, 1:2000)和淀粉样蛋白b(Dako, 6F-3D, 1:500, 在90%for-mic acid中预处理2分钟)进行免疫细胞化学染色。半定量评估每200视野神经原纤维缠结的最大密度,并按1~4分进行评分(1+:1个神经纤维缠绕/视野;2+:2~5个神经纤维缠绕/视野;3+:6~9个神经纤维缠绕/视野;4+:510个神经纤维缠绕/视野)。同样,弥漫性老年斑、神经炎斑块和致密老年斑块在100显微镜视野下检查,并分别进行评分,评分范围在1和4之间(1+:1-9个斑块/视野;2+:10-19/视野,3+:20-32/视野,4+:432/视野)。最后通过3个显微镜场的平均数进行测定。将每个脑区的神经纤维缠结、弥漫性老年斑、神经性或致密性老年斑的密度与该区域的阿尔茨海默病概率进行定性比较。

神经科医生验证

9名美国委员会认证的执业神经科医生和2名非美国执业神经科医生(均称为神经科医生)被要求提供从ADNI数据集中随机选择的80例未用于模型训练的病例的诊断印象(阿尔茨海默病与正常认知)。对于每个病例,神经科医生都被提供了完整体积的T1加权MRI扫描、受试者的年龄、性别及其MMSE评分用于评估。同样的参数用于训练模型(图1中的融合模型)。为了获得深度学习模型与普通神经学家相比的估计,对单独评估每个测试案例的神经科医生的表现特征进行了平均。有关神经科医生对评级的更多细节可以在补充材料中找到。

卷积神经网络模型开发

创建了一个3D CNN来进行阿尔茨海默病和正常认知病例的分类,并将其结果与FCN模型进行了比较。CNN模型是在与FCN模型相同的数据分割上进行训练、验证和测试的。为了便于与FCN模型进行直接比较,仅使用MRI数据开发了一个CNN模型,以及一个额外的MLP(多层感知器),其中包括CNN模型衍生的特征以及年龄、性别和MMSE评分。与FCN-MLP模型类似,也合并了基于CNN的成像特征(即CNN第一全连接层后的特征向量)和非成像特征进行MLP训练。

CNN模型由四个卷积层组成,后面紧跟两个全连接层(补充图3和补充表4)。每个卷积层后面都有ReLu激活。卷积块之间的最大池化层被用来对特征图进行下采样。在每个卷积层之后应用了批量归一化、Leaky ReLu和dropout。Dropout和Leaky ReLu被应用在全连接层的特征向量上。在最后的全连接层上应用了Softmax。CNN模型是用与FCN模型相同的优化器和损失函数从头开始训练的。使用了0.0001的学习率,mini-batch为6。在ADNI验证数据集上性能最好的CNN模型被用于预测测试数据集上的阿尔茨海默病状态。

补充图3.三维卷积神经网络(CNN)示意图。CNN模型由4个卷积层组成,后面是2个全连接层,在整个MRI体积上进行训练,以预测AD状态。

补充表4. 卷积神经网络(CNN)架构和超参数的总结。CNN模型内的每一个卷积层都是在最大池化、批量归一化、Leaky ReLu和dropout激活之后进行的。显示了每层的具体设置,即通道深度,内核大小,填充,步长,dropout率和动量。

随机森林模型

从ADNI数据集中,基于体素的MRI 形态测量分析表中获得的MRI测量(n = 117)作为输入,构建随机森林(RF)分类器来预测阿尔茨海默病状态。使用不同的随机种子重复构建随机森林模型10次,并报告模型的平均性能。

性能矩阵

在ADNI数据集上构建模型,将其随机分为三组,分别进行训练、验证和测试。在每一次训练和验证的拆分上建立模型,并对测试数据集(ADNI测试、AIBL、FHS和NACC)的性能进行评估,这个过程重复5次。性能以模型运行的平均值和标准差的形式呈现。来自ADNI测试数据集的扫描用于与神经学家进行比较(head-to-head comparison)。

基于对ADNI测试数据以及其他独立数据集(AIBL、FHS和NACC)的模型预测,生成了灵敏度-特异性和精确度-召回率曲线。对于每条灵敏度-特异性和精确度-召回率曲线,还计算了曲线下面积(AUC)值。此外,还计算了每组模型预测的灵敏度、特异性、F1-得分和Matthews相关系数。F1-得分同时考虑了测试的精确度和召回率,定义为:

F1 = 2 × TP/(2 × TP + FP + FN) (1)

这里,TP表示真阳性值,FP和FN分别表示假阳性和假阴性情况。马太相关系数(MCC)是衡量二元分类器对不同大小的数据集分类质量的一个平衡指标,定义如下:

TN表示真负值。我们还使用Cohen’s kappa值计算了解释者之间(inter-annotator)的一致性,即两个解释者同意诊断的次数之比。统计量衡量分类项目的评分者(inter-rater)之间的一致性。分数(Cohen’s kappa-score)为1表示注释者之间完全一致(perfect agreement between the annotators)。

【译者注:

Cohen’s kappa值:用于评价多个医生诊断结果一致性。Cohen’s kappa统计量,是分类变量X和Y之间一致性的度量。例如,kappa可用于比较不同待评估者将受试者分类到若干组之中某个类别的能力。当新技术正在研究中时,Kappa还可用于评估替代分类的评估方法之间的一致性。】

统计分析

为了评估正常认知组和阿尔茨海默病组之间的总体差异显著水平,对连续变量和分类变量分别采用两样本t检验和?2检验。通过将疾病概率图与尸检所得疾病概率图重叠,评估FCN模型识别阿尔茨海默病高风险区域的能力。

组织病理学研究结果

FHS研究样本中的11人的子集已经进行了脑部解剖,并被用于分析。在这些参与者中,神经病理学家半定量报告的淀粉样蛋白-b和tau病理的位置和频率与高阿尔茨海默病风险区域相关。使用Spearman's rank相关系数检验来确定这些区域阿尔茨海默病概率和病理评分之间关系的强度和方向(负或正)。

数据可用性

Python脚本和样本数据在GitHub上提供(https://github.com/vkola-lab/brain2020)。

表1. 本研究采用了四个独立的数据集,包括:ADNI数据集、AIBL、FHS和NACC。ADNI数据集以3:1:1的比例随机拆分,其中60%用于模型训练,20%用于内部验证,其余用于内部测试。在验证数据集上选择性能最好的模型,对ADNI测试数据及AIBL、FHS和NACC数据集进行预测,这些数据集作为模型验证的外部测试数据集。本研究考虑的所有MRI扫描都是在临床诊断之日起±6个月内对个体进行的。AD=阿尔茨海默病;NA=不可用;NC=正常认知。

a所有AIBL研究参与者的教育年限不详。

b部分研究参与者的教育年限不详。

c数据集中部分受试者在诊断后6个月内的MMSE分数不可用。

d研究数据集中部分受试者的dAPOE4(遗传)信息不可用。

结果

本文的深度学习pipeline可以将FCN(完全卷积网络)与MLP(多层感知器)联系起来,直接从MRI数据或从MRI数据和现成的非影像数据的组合中预测阿尔茨海默病状态(图1)。该框架的FCN部分生成了个体的整体阿尔茨海默病风险的高分辨率可视化图,作为局部大脑形态学的功能。本文将这些可视化称为疾病概率图。然后,MLP直接使用疾病概率图(图1中的MRI模型),或一组非影像学特征,如年龄、性别和MMSE评分(图1中的非影像学模型),或由疾病概率图、MMSE评分、年龄和性别组成的多模态输入数据(图1中的融合模型),在四个独立的数据集中准确预测阿尔茨海默病状态(表1)。本文选择了这些已知的阿尔茨海默病风险因素,因为非阿尔茨海默病专家也可以很容易地获得它们。FCN被训练成从随机选择的patches(子体积)中预测疾病概率,这些patches是从完整的MRI体数据中采样的像素(图1和补充表1)。鉴于这种类型的网络接受任意大小的输入,应用子体积训练的FCN就可以用来构建高分辨率的疾病概率图,而不需要冗余地分解全尺寸的测试图像。

对单个MRI体数据进行快速处理,可以分别在受影响和未受影响个体的大脑中生成局部阿尔茨海默病概率的体积分布(图2)。为了评估从这些分布中得出的阿尔茨海默病形态学预测的热点区域的解剖学一致性,构建了马太相关系数的全人群地图。该图谱能够识别出对疾病状态的正确预测最常见的区域(图3),从而作为展示阿尔茨海默病中受神经病理变化影响最大的结构的手段。

图2. 个体特异性疾病概率图。

(A) 由FCN模型生成的疾病概率图突出了与阿尔茨海默病病理相关的高风险脑区。个体病例显示中,蓝色表示低风险,红色表示阿尔茨海默病的高风险。后两个个体经临床证实认知正常,而另外两个个体经临床诊断为阿尔茨海默病。

(B-D)显示了来自临床证实为阿尔茨海默病的单个受试者的疾病概率图的轴向、冠状面和矢状面堆叠。所有成像平面均用于构建3D疾病概率图。红色表示局部推断的阿尔茨海默病概率40.5,而蓝色表示50.5。AD=阿尔茨海默病;NC=正常认知。

图3. FCN模型性能总结。(A)马太相关系数(MCC)的体素是在所有数据集上独立计算的,以显示大脑内所有区域的预测性能。(B-D)显示了单个受试者在每个横截面上的MCC轴向、冠状位和矢状位的堆叠。这些图集是通过ADNI测试数据的MCC值的平均值生成的。

作为确认,从选定的分割脑区提取平均区域概率(图4),与尸检神经病理检查中报告的阿尔茨海默病阳性结果高度相关。具体来说,这些区域与FHS数据集(n = 11)中现有尸检报告中报告的淀粉样蛋白-b和tau病理的位置和数值频率相关(补充表5)。尸检数据表明,除了预测有病的个体比无病的个体有更高的阿尔茨海默病概率的区域特异性外,模型所涉及的阿尔茨海默病的大脑区域的蛋白病变也更为频繁(图4)。模型预测的阿尔茨海默病高风险区域与显示有淀粉样蛋白-b和tau高局部沉积的分割区域重叠。此外,这些区域内预测的阿尔茨海默病风险随着病理评分的增加而增加。鉴于这些尸检结果在确认阿尔茨海默病方面是决定性的,这些物理发现将本文的计算预测建立在生物学证据的基础上。

图4. 模型结果与神经病理学的相关性。

(A)模型预测的阿尔茨海默病高危区域与单个受试者的阿尔茨海默病病理尸检结果的重叠。该受试者临床证实患有阿尔茨海默病,受累区域包括双侧不对称颞叶和右侧海马、扣带皮层、胼胝体、部分顶叶和额叶。第一列(i)显示了三个不同平面的MRI切片,随后是列(ii),显示了相应的模型预测疾病概率图。选择0.7的截止值来划分阿尔茨海默病的高风险区域,并与下一列(iii)的MRI扫描重叠。下一列(iv),描绘了从FreeSurfer(Fischl,2012)获得的大脑皮质和皮质下结构的分段掩模。顺序颜色编码方案表示不同的病理水平,从绿色(0,低)到淡红色(4,高)。最后一列(v),显示了磁共振扫描的叠加,高阿尔茨海默病风险的疾病概率图和基于病理等级的彩色编码区域。

(B)然后,从FHS数据集(n = 11)定性评估神经病理结果的趋势。使用相同的颜色编码代表热图中的病理等级(0-4)。热图中的“白色”框表示数据缺失。使用Spearman等级相关系数检验,阿尔茨海默病概率风险的增加与较高等级的淀粉样蛋白-b和tau堆积的级别高低有关,分别在海马结构、中额叶区、杏仁核和颞区。Biel=Bielschowsky染色;L=左;R=右。

补充表5:神经病理结果与区域性AD概率预测之间的相关性。使用分割工具(FreeSurfer)对MRI扫描进行分割,以代表不同的脑叶,并计算每个分割区域的总体平均区域AD概率。然后计算Spearman相关系数,以量化局部概率和半定量病理评分之间的关系,这些评分来自病理学家评分的神经纤维缠结(NFT)、神经斑块(NPL)和弥漫性斑块(DP)的密度。使用这种非参数检验,评估区域AD概率和病理评分之间关系的强度和方向(负或正)在0.05水平上的显著性。在这些区域的众多病理中观察到了正相关,然而只有左侧海马CA1区域的NFTs、右侧嗅球的NFTs和颞区的弥漫性斑块具有统计学意义。

此外,疾病概率图提供了一个信息密集的特征,当独立传递给本框架的MLP部分(图5A和B中的MRI模型)时,该特征产生了对阿尔茨海默病状态的敏感和特异的二元预测。仅使用年龄、性别和MMSE评分等非影像特征训练的MLP也能预测阿尔茨海默病状态(图5A和B中的非影像模型)。通过扩展MLP输入以包括疾病概率图、性别、年龄和MMSE评分(图5A和B中的融合模型),进一步提高了模型性能。当包括其他非影像学特征,如APOE状态时,模型性能略有改善(补充图4和补充表6)。考虑到年龄和全局性脑萎缩之间的比例关系(van de Pol等人,2006;Raji等人,2009),在MLP阶段加入非影像学变量也使模型能够控制脑形态变化随年龄自然变化的过程。

图5 阿尔茨海默病分类的MLP模型的性能以及与神经学家的模型比较。

(A)灵敏度-特异性和PR曲线(precision-recall curves),显示了在ADNI测试集上计算的灵敏度、真阳性率与特异性、真阴性率。在ADNI测试数据的敏感性-特异性和PR曲线上,红色加号表示单个神经学家的表现,绿色加号表示神经学家的平均表现以及误差条。对Cohen’s kappa的可视化描述也显示出来,它表示所有11位神经学家之间的操作者之间的一致性。

(B)分别在AIBL、FHS和NACC数据集上计算的敏感性-特异性和PR曲线。在所有情况下,模型A表示以MRI数据作为唯一输入的MLP模型的性能,模型B是以非影像特征作为输入的MLP模型,模型C表示以MRI数据与年龄、性别和MMSE值作为输入进行二元分类的MLP模型。

补充图4.使用载脂蛋白E(ApoE)状态的非成像和多模态模型的性能。

ApoE状态作为一个附加特征被添加到构建MLP和多模态模型所使用的临床变量集中。在此图中,非影像(NI)模型是指使用年龄、性别、MMSE评分和ApoE状态作为特征的MLP模型,而融合模型(Fus)是指使用FCN模型特征、年龄、性别、MMSE评分和ApoE状态开发的MLP模型。SS(a)和PR(b)曲线均被显示。

补充表6.包括载脂蛋白E的模型的总结。显示了各包含ApoE模型的准确性、敏感性、特异性、F1-score和Matthew的相关系数。这里,非影像模型指的是单独的MLP,而融合模型指的是使用CNN模型特征、年龄、性别和MMSE评分开发的MLP模型。

本文还将深度学习模型的性能与一个国际临床神经学家小组进行了比较,该小组被招募来提供对随机抽样的ADNI参与者的疾病状态印象,其MRI、MMSE评分、年龄和性别均已提供。神经科医生的表现(图5A),表明不同临床实践之间的差异性,通过对kappa评分评估,评价者之间的一致性适中(图5A;平均j=0.493±0.16)。有趣的是,本文还注意到,仅基于MRI数据的深度学习模型(MRI模型;准确率:0.834 ± 0.020;表2),优于一般神经科医生(准确率:0.823 ± 0.094;补充表7)。当年龄、性别和MMSE信息被添加到模型中时,性能显著提高(融合模型;准确率:0.968 ± 0.014;表2)。

补充表7.神经科医生表现汇总。神经科医生被招募来对深度学习模型的预测性能进行验证。每位医生都会收到来自ADNI数据集中随机选择的80个个体的临床信息,这些个体的疾病状态被隐去。对于每个病例,给出了MMSE评分、年龄和性别。使用一个开源平台(http://www.slicer.org)提供可供检查的MRI体数据。每个神经科医生使用给定的材料提供诊断印象,并计算相对于临床诊断的准确性、敏感性、特异性、F1-score和Matthew相关系数。值得注意的是,当参与的神经科医生被要求从收集MRI、年龄、性别和MMSE评分来预测患有疾病的一部分人的AD状态时,他们被要求解释他们的推理。虽然在考虑影像学和非影像学数据的顺序上有明显的差异,但这两种形式的信息被广泛认为是互补的。考虑到普遍的适龄萎缩,及关键脑区的局灶性萎缩(特别是海马和颞叶),影像学被广泛用于排除痴呆的竞争性病因,如额颞变性和血管疾病。MMSE,通常被认为与年龄相关,也被广泛用于与显著的影像学特征进行比较。总的来说,这些观点说明了AD诊断的综合方法的重要性,其中不同形式的信息在疾病状态的最终分类之前得到了协调。

表2. 构建了三个模型进行显示性能比较。

MRI模型基于从patch训练的FCN导出的成像特征预测阿尔茨海默病状态。非影像模型由一个处理非影像临床变量(年龄、性别、MMSE)的MLP组成。融合模型将MRI模型使用的临床变量附加到非成像模型的MLP部分,以形成多模态成像/非成像输入。每种方法的准确度、灵敏度、特异性、F1-score和Matthew‘s相关系数(MCC)都得到了验证。

研究发现,在四个数据集中,融合模型在几乎所有指标上都优于其他模型。然而,值得关注的是,可以注意到MRI模型和非成像模型的性能仍然显示出比许多人类神经学家更高的特异性和灵敏度,所有这些人都使用了全套可用数据源来得出结果。

其他指标证实了深度学习模型在外部数据集中一致的高分类性能(表2)。使用来自所有四个数据集的强度值作为输入,对MRI体数据扫描进行t-分布式随机邻域嵌入(t-SNE)(van der Maaten和Hinton,2008)。t-SNE方法获取高维数据并创建该数据的低维表示,从而可以很容易地可视化。虽然t-SNE图导致扫描的特定部位聚类(图6A),但病例站点内分布(intra-site distribution)显示阿尔茨海默病和正常认知病例之间没有明显的区别。这一观察低估了利用监督学习策略单独使用MRI扫描数据预测阿尔茨海默病状态的合理性。我们认为这是我们研究的一个优势,因为尽管存在特定点的差异,但FCN模型能够很好地在外部数据集上进行推广。之后使用了来自ADNI数据集的特定扫描设备信息,并生成另一个t-SNE可视化,这也揭示了阿尔茨海默病或正常认知病例没有明显的聚类(图6B)。这意味着任何潜在的扫描仪特异性差异可能没有影响模型训练过程。此外,通过在t-SNE中分别对阿尔茨海默病和正常认知病例进行聚类直观地检查了模型性能,该t-SNE模型使用了MLP最终隐层之前的特征(图6C)。

图6数据的可视化。

(A)将所有四个数据集(ADNI、AIBL、FHS和NACC)的体素级MRI强度值作为输入,并使用t-SNE生成二维图,这是一种可视化高维数据的方法。图中的颜色代表部位,数字“0”用于呈现认知正常(NC)的病例,数字“1”用于显示确诊为阿尔茨海默病(AD)的病例。

(B)此t-SNE图仅在使用ADNI数据集时产生,其中颜色用于代表扫描仪。数字“0”用于正常认知病例,“1”用于阿尔茨海默病病例。

(C)基于FCN的输出作为MLP模型的输入特征,被嵌入到使用t-SNE为两个类别(阿尔茨海默病和正常认知)生成的二维曲线图中。颜色(蓝色与红色)被用来区分正常认知与阿尔茨海默病病例,而一个独特的符号形状被用来代表来自同一数据集的个体。几个被临床证实患有阿尔茨海默病或正常认知的个体病例也被显示出来(表示为覆盖在各自数据点上的黑圈)。该图还显示了特征空间中基于疾病状态而非起源数据集的受试者的共定位。

值得注意的是,对于同样的任务,本文的策略比传统的CNN方法在计算效率上有显著的提高(图1的步骤1与补充图5)。鉴于固定的全连接层维度,从传统CNNs生成疾病概率图不仅需要子体积训练(sub-volumetric training),还需要子体积应用于全尺寸MRI体积(补充表8与表2),为了计算疾病状态的局部概率,不得不进行重复计算。通过规避这种僵化,本文的方法很容易产生疾病概率图(图1,步骤2),可以与多模态临床数据集成,用于阿尔茨海默病诊断(图1,步骤3)。因此,这项工作扩展了最近报道的直接从医学图像中抽象出疾病风险的视觉表示的努力(Coudray等人,2018),也代表了FCNs在疾病分类任务中的应用,而不是语义分割(Shelhamer等人,2017)。此外,FCN模型在预测阿尔茨海默病状态方面的表现与具有完全连接层的传统CNN模型处于同一水平,这一结果在所有数据集中都是一致的(补充图5和补充表8)。值得注意的是,FCN模型的表现优于使用衍生的MRI特征构建的传统机器学习模型(补充图6和补充表9)。

补充表8. 3D卷积神经网络(CNN)模型性能总结。显示了3D CNN模型的准确性、灵敏度、特异性、F1-score和Matthew相关系数。在这里,MRI模型指的是单独的CNN模型,而融合模型指的是使用CNN模型的特征、年龄、性别和MMSE评分开发的MLP模型。

补充图5. 3D卷积神经网络(CNN)的性能。

(A)SS曲线比较了以MRI为唯一输入开发的CNN模型(MRI模型),以及包括CNN特征和年龄、性别、MMSE评分等非影像特征的其他模型(Fusion模型)。

(B)PR曲线比较了以MRI为唯一输入的CNN模型(MRI模型)以及包括CNN特征和年龄、性别、MMSE分数在内的非影像特征的其他模型(Fusion模型)。

补充图6. 随机森林分类器的性能。SS和PR曲线分别表示随机森林(RF)分类器的性能。用MRI衍生的测量方法作为输入,用个体的AD状态作为输出来构建模型。

补充表9. 随机森林模型的性能。将来自ADNI数据集的MRI特征(n=117)作为a输入,构建随机森林(RF)分类器来预测AD状态。RF分类器的准确度、灵敏度、特异性、F1-score和Matthew's相关系数的值是10个随机种子的平均值。

讨论

总体来说,本文的深度学习框架将一个完全卷积的网络连接到一个多层感知器,并生成高分辨率的疾病概率图,已达到神经科医生级别的阿尔茨海默病状态诊断精度。本模型输出的直观的局部概率图很容易解释,从而促进了医学领域日益增长的可解释的人工智能研究趋向,并从传统的诊断工具中衍生出隐匿性疾病的个性化表型。事实上,疾病概率图提供了一种在诊断过程中追踪牵连到阿尔茨海默病的明显脑区的手段。然后,本文汇总了整个数据集的疾病概率图,以证明阿尔茨海默病和正常认知病例的神经解剖风险图谱的人群水平差异。至关重要的是,根据几个不同的度量标准,本文的模型表现出了良好的预测性能,在所有测试数据集上产生了高且一致的值。在MRI扫描协议中,地理位置和招募标准方面差异很大的数据集之间这种一致性,表明了很强的普适性。因此,这些研究结果证明了在医学和计算结合点的创新,同时为计算机视觉领域贡献了新的见解,同时也扩大了神经网络的生物医学的应用范围。

疾病概率图是通过将Softmax函数按元素应用于由FCN生成的最终激活阵列来创建的。这一步使神经解剖信息的抽象张量编码转换为概率数组,以证明在给定局部几何结构的情况下,大脑中不同位置发生阿尔茨海默病的可能性。换言之,该模型发展了整个大脑中阿尔茨海默病提示形态的颗粒概念化(granular conceptualization),然后在测试案例中使用这些学习信息来评估每个区域发生阿尔茨海默病相关病理生理过程的概率。因此,将这些概率以连贯的彩色图谱的形式简单呈现,与传统的神经影像学一起显示,就可以逐点预测疾病相关变化可能出现在哪里(图4)。最近的工作也证明了使用基于patch的采样算法可以有效区分阿尔茨海默病和正常认知病例(Lu等人,2018),但受限于同时依赖MRI和氟脱氧葡萄糖PET以及一个模型,该模型的输入是根据来自多体素大脑位点的强度的标量平均值计算的。此外,更广泛的疾病过程图谱与深度学习的概念有可能应用在许多医学领域。将疾病风险简单地表现为叠加在传统成像模式上的连贯的彩色图谱,有助于增强可解释性。这与仅基于某些像素对网络内部功能的效用来突出某些像素的显著映射策略,以及突出倒数第二层激活值的方法形成了鲜明对比。因此,信息丰富的解剖学信息被抽象化并丢失。本文的工作在将原始像素值阵列映射到同构保留神经解剖学信息疾病概率图的过程中,只需要一个单一的成像模态。

除此以外,传统的深度神经网络(如具有完全连接层的CNN)需要固定大小的输入,而FCN则能够对任意大小的输入进行操作。这在数据集中很有用,因为在这些数据集中,可以处理不同大小的扫描,而不需要为每种尺寸的扫描单独训练分类器。此外,FCNs可以有效地处理体积扫描,因为它们的完全卷积性质允许它们同时评估多个patches。这并不意味着FCNs将全局结构强加到各个patches级别的预测中。相反,生成的疾病概率图导向一个连续的体积解释,表示阿尔茨海默病风险的高概率区域。

当然,当前研究也存在不少局限性。本文仍旧基于病例及对照组的传统分类框架,事先选择了两个人群,这两个人群要么认知正常,要么有诊断(阿尔茨海默病)。这种情况并不完全代表神经科医生所面临的标准临床决策过程。患者通常会出现一系列症状和标准神经系统测试的结果,这些症状和结果表明了一系列的神经退行性疾病,而不是二元情况。因此,本文方法在目前的状态下并不直接适用,但可作为建立一个更全面的框架来描述神经退行性疾病的多种病因的第一步。值得注意的是,基于非影像数据的模型在AIBL和NACC数据上表现更好,而基于MRI的模型在FHS数据上表现更好。因此,MMSE值是ADNI、AIBL和NACC研究标准中的一个关键因素,这可能解释了为什么基于非影像数据的模型在这些数据集上表现更好。由于FHS是一个社区数据集,它作为一个相对无偏的数据集,用于模型验证。尽管有这样的研究选择的局限性,但本文的FCN模型可以将MRI变化与局部神经病理联系起来,并提供了令人信服的证据,证明单独使用影像学生物标志物可以准确评估阿尔茨海默病状态。

总结:

总之,本文的深度学习框架能够从MRI数据中获得高精度的阿尔茨海默病分类标志,利用4个数据集的1000多个数据构建神经网络,用于阿尔茨海默症的疾病分类,预处理是利用FSL和freesurfer进行的。本文介绍的FCN,经过6组CNN后,就直接得到local disease probability,利用了块分析的理念进行设计研究。FCN结合MLP,直接从MRI数据或从MRI数据和现成的非影像数据的组合中预测阿尔茨海默病状态。

该深度学习框架将一个完全卷积的网络连接到一个多层感知器,并生成高分辨率的疾病概率图,已达到神经科医生级别的阿尔茨海默病状态诊断精度。如果在临床上得到证实,这种方法有可能扩大神经影像技术在疾病检测和管理方面的范围。随着对疾病修正疗法的探索仍在继续,进一步的验证与目前的神经学评估相比,可能会持续改善护理和诊断结果。

Development and validation of an interpretable deep learning framework for Alzheimer’s disease classificatio

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 思影科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档