Radiology:对阿兹海默和行为变异型额颞痴呆症的基于皮层萎缩的个体患者的自动诊断分类

用户1279583

发布于 2019-08-09 15:51:57

5750

发布于 2019-08-09 15:51:57

文章被收录于专栏：思影科技

请点击上面“思影科技”四个字，选择关注我们，思影科技专注于脑影像数据处理，涵盖（fMRI,结构像,DTI,ASL,EEG/ERP,FNIRS,眼动）等，希望专业的内容可以给关注者带来帮助，欢迎留言讨论，也欢迎参加思影科技的其他课程。(文末点击浏览）

在临床治疗中，获得比行为学测量结果更加准确的具有分类意义的神经生理指标越来越重要，因为在行为学认知测量中，由于其使用结果标量来反应认知能力的特性，难以观察到复杂成因的细节和发生过程，因此，在临床表现相似的疾病中，行为学认知测量其实在某种程度是存在较大局限性的。寻找到能够对疾病诊断和分类具有更高敏感性的神经生理指标成为了补充这一缺陷的重要途经，在这条道路上，神经影像学和机器学习的结合为这种思路提供了最基本的操作方法。因此，难点便在于合适的神经影像学指标的选择、大样本被试、严格的被试筛选、严肃的统计分析和有效的机器学习方法的选择等方面，这篇文章在以上这些重点中都做出了很大努力。

首先，其整体框架明晰，研究目的直指：认知测试在辨别AD与bvFTD时缺乏准确性这一问题。在明晰的背景分析后，提出了科学研究中与临床实际治疗中最容易获取并且具有高关注度的T1结构像作为神经影像学手段来获取灰质密度图作为神经生理指标。

其次，对以往研究中存在的问题进行逐一解决，在增大样本量的同时，还增加主观性认知障碍患者（SCD）进入对照组，以模拟在临床治疗中面对的复杂情况。在灰质密度图计算中，为了避免DARTEL方法带来的数据分析bais，对预测集数据和训练集数据单独进行了处理（处处体现细节）。然后，对数据进行了严格的统计。

作者首先通过行为学测量结果的分类准确性统计验证了其提出的认知测试在辨别AD与bvFTD时缺乏准确性这一观点，然后使用SVM（用的PRoNTo）：（详细了解请直接点击：第七届脑影像机器学习班 ）方法对灰质密度对AD、bvFTD以及其对照组的分类能力和预测能力进行了分析，结果表明基于GM密度图的机器学习算法在分类AD与bvFTD患者时优于基于神经心理学测试结果的分类。

尽管从应用临床的角度来看，作者获得的具有良好的分类和预测能力的模型还难以直接适用于临床诊断，但是其表现出的具有统计学意义的分类结果表明了，使用神经生理指标作为疾病分类诊断的科学意义和临床意义是极为重大的。这些方法将在未来的研究和临床治疗中发挥出巨大的能量。

在本研究中，通过使用从多个成像仪获得的标准T1加权结构图像计算的灰质（GM）密度图，使用独立的训练和预测数据，研究基于图像的分类器在个体患者中区分阿兹海默病（AD）和行为变异额颞叶痴呆(bvFTD)的诊断准确性。

材料和方法：84名AD患者，51名bvFTD患者和94名对照被分为独立的两组——训练组（n=115）和预测组（n=114），二者有相同的诊断和影像学类型分布（即两组数据在诊断特征和成像特征上是同质的）。

使用诊断状态和灰质密度图训练SVM分类器并生成体素判别图。利用判别函数分析方法，估计提取的权值对预测单被试分类的适用性。基于图像的分类器和神经心理学z评分，计算ROC曲线及其曲线下面积（即AUC）。

结果：AD患者与对照组患者SVM的训练准确率为85%，bvFTD患者与对照组相比为72%， AD 患者与bvFTD 患者相比为79 %（ P<0.05）。使用判别图预测个体患者诊断时，区分AD患者与对照组的准确率分别为88%，bvFTD患者与对照组的准确率分别为85%，AD患者与bvFTD患者准确率为82%，具有良好至优异的AUC范围（0.81-0.95;P <0.001）。基于GM密度图的机器学习算法在分类AD与bvFTD患者时优于基于神经心理学测试结果的分类。

结论：SVM可用于个体患者区分，帮助临床医生做出诊断。通过使用常见的T1加权结构MR成像，SVM可以区分出和正常衰老人群相比AD患者与bvFTD 患者的疾病特异性GM模式。

Alzheimer病（AD）和行为变异额颞叶痴呆（bvFTD）是早发性痴呆的最常见原因。这些疾病具有不同的临床诊断标准；然而，他们临床症状的重叠使得鉴别诊断变得复杂。各种研究表明，认知测试在辨别AD与bvFTD时缺乏准确性（在行为学认知测量中，由于其结果标量来反应认知能力的特性，难以观察到复杂成因的细节和发生过程，因此，在临床表现相似的疾病中，行为学认知测量其实在某种程度是存在较大局限性的）。

磁共振（MR）成像可用于在疾病早期检测疾病特异性的宏观脑变化，目前关于脑灰质变化的研究区分bvFTD和AD时仅报告脑结构的组间差异，而不是对个体病人进行评估（但这一点恰恰是对临床治疗最重要的）。

AD和bvFTD的萎缩模式重叠。例如，额叶萎缩在AD病人中出现，海马萎缩无法排除bvFTD，因为它也在正常衰老过程中发生。皮层萎缩在疾病早期并不突出，这阻碍了传统上用于单一受试者诊断的视觉评定量表的可用性。其他成像模式，如正电子发射断层扫描（PET）和功能和扩散加权MR成像，可以区分AD和bvFTD。然而，这些方式更具有侵入性和耗时。因此，它们在临床环境中更难实施（PET是具有侵入性的，功能成像和扩散加权成像受到序列影响，时间确实要更长，才能获得较好的效果）。

记忆门诊患者筛查方案通常包括具有T1加权三维序列的MR检查。该序列捕获疾病特异性结构变化，并且在成像器中是稳定的。

关于AD和bvFTD的SVM分类的现有文献显示了其局限性：从整个额颞叶痴呆谱系中区分AD的主要方法表现为语言变异，其不对称萎缩的灰质结构异常驱动了分类。

但交叉验证后的准确度估计（例如，重复使用训练数据进行预测）通常存在偏差，尤其是当样本量较小时。在本研究中，作者使用从多个成像仪的标准T1加权像计算GM密度图，使用独立的训练和预测数据，研究了AD和bvFTD之间基于图像的分类器在个体患者中的诊断准确性（其研究问题明确的反应了每一个在背景分析中提到的问题）。

材料和方法

这项研究回顾性地包括84名AD患者、51名bvFTD患者和53名主观性认知障碍（scds）患者，他们在2009年9月和2013年10月期间访问VU大学医学中心的阿尔茨海默病中心或鹿特丹伊拉斯谟大学医学中心的阿尔茨海默病中心。

标准化的1天评估包括病史、基于病人知情者的病史信息、身体和神经检查，血液测试、神经心理学评估和磁共振成像。基于多学科共识的可能AD诊断采用了国家老龄化研究所和阿尔茨海默病协会的核心临床标准，bvftd的诊断遵循国际前沿颞叶痴呆联合会标准。SCD患者报告有记忆障碍，但认知功能正常；他们不符合轻度认知障碍、痴呆或其他神经或精神疾病的标准（严格的诊断标准和被试筛查是此类文章的重点之一）。

诊断由一个联合小组重新评估，以尽量减少中心效应。通过当地报纸上的广告招募了总共41名认知健康的对照受试者。对照受试者进行病史采集，体格检查，神经心理学测试和脑部磁共振成像。对照受试者和患有SCD的患者形成了一般人群的代表性对照组。

患者和对照受试者的入选标准是三维T1加权MR图像的可用性和年龄在40至80岁之间。排除标准是：大的图像伪影，MR图像处理期间的软件故障，以及除萎缩之外的大脑异常，包括深GM结构中的严重白质高信号和腔隙性梗塞。（划重点！）根据这些标准，没有患者被排除在外。共有229名个体（84名AD患者，51名患有bvFTD的患者，94名对照受试者即健康对照被试加SCD患者共同组成）用于分析。

患者和对照组随机分为训练组（n = 115;42例AD患者，26例bvFTD患者，47例对照受试者）和预测组（n = 114; 42例AD患者，25例bvFTD患者，47例对照组），具有相同的诊断分布，年龄，性别和成像类型。教育评分为七分。疾病持续时间定义为护理人员首次意识到症状与诊断之间的时间。

神经心理学评估

回顾性地从阿姆斯特丹痴呆症队列获得神经心理学数据。使用（MMSE）来评估痴呆症的严重程度和额叶评估测验评估额叶功能障碍。对于认知测试，使用标准化的神经心理学组合测试，其中包括（a）记忆（b）语言（c）注意力，（d）执行功能。从原始测试分数来计算z分数（即进行数据标准化，以能够使数据更加正态，满足参数检验的要求）。计算由至少一个神经心理学任务表示的认知域的复合z分数（可以理解为数据降维）。

MR图像采集

在VU大学医学中心的阿尔茨海默病中心的检查使用两个3T成像仪（Signa HDxt，GEHealthcare；Ingenuity TF PET / MR，Philips Medical Systems）。来自鹿特丹伊拉斯姆斯大学医学中心的受试者在莱顿大学医学中心使用3T成像仪（ Achieva; Philips Netherlands）进行检查。成像序列包括全脑近似同位素（即近似立方体）三维T1加权成像。在VU 大学医学中心的阿尔茨海默病中心采集图像体素大小为:0.98*0.98*1mm，其成像时间：4 分57秒或1 *1* 1 mm，其成像时间为6分14秒。莱顿大学医学中心体素尺寸：0.88*0.88*1.2mm；成像时间，4 分57秒）。

MR图像处理

对Signa-HDxt成像仪的三维T1加权图像进行梯度非线性畸变校正。所有图像都转换为NiFTI格式。使用FSL线性配准工具（即FLIRT）计算到MNI空间的线性转换。用SPM8的基于体素的形态测量工具箱VBM8计算GM密度图（详细了解，请点击这里：

第七届磁共振脑影像结构班

在VBM8中单独处理训练和预测数据以避免bias（这里可以理解为由于共同数据处理带来的数据特征的相似性从而造成的bias，因为作者使用了DARTEL的算法来进行结构数据的分割和配准）。

VBM8工具箱的第一个模块将三维T1加权图像分割为GM，白质和脑脊液，并通过DARTEL算法配准到MNI空间。在去除非脑部分后，组织分类密度图被配准到模板用以计算针对个体大脑尺寸校正后的组织量。直接对数据进行校正，这样统计时就无需再次校正。然后使用8mm的全宽半高各向同性高斯核对图像做平滑处理。

Svm模式识别

使用模式识别神经影像工具箱（即PRoNTo）进行模式识别。设置所有输入的平均值的0.2作为阈值（做VBM时常用的阈值）来定义mask。采用二元SVM分类来分类：

（a）AD患者与对照受试者

（b）患有bvFTD 的患者与对照受试者

（c）患有AD的患者与具有bvFTD的患者。

采用留一交叉验证并构建体素判别图。这些判别图包含由SVM习得并投回输入空间的模型参数。模型训练表现由准确性、敏感性和特异性衡量（三个机器学习中最常见的判断模型训练效力的指标）。使用置换检验（1000次）来得到平衡精度的P值（不知道你会不会和我想得一样，1000次是不是少了点儿？）。

新个体中的SVM预测

独立预测集中的个体患者诊断如下：单个患者GM密度乘以从线性SVM计算的模型权重，对该乘积的积分设置阈值进行分类。使用SPSS软件确定特异性和敏感性。

统计分析

统计分析用上述SPSS软件。通过使用单变量方差分析，Kruskal-Wallis 检验（单因子方差分析，主要用于进行多个群组之间比较时，因群组不满足正态分布而不能使用ANOVA比较，所常采用的统计相似检验方法）和卡方检验来评估组间差异。

复合认知域z得分进行多变量方差分析和Bonferroni校正，其中年龄，性别，教育水平和疾病持续时间为协变量。AD患者与bvFTD患者进行一次性交叉验证的逐步判别函数分析确定了神经心理学测试的判别能力;预测因子是记忆，语言，注意力和执行功能的四个z域，并计算ROC和ROC曲线下面积（AUC）。

利用三组间的两两判别函数分析，并进行交叉验证，以确定支持向量机预测的准确性。计算认知测试的ROC和AUC。统计显著性设定为P<0.05（值得一提的是，在文章中统计检验的部分作者标注了进行该项统计检验的操作者，并且明确的给出了该操作者执行该部分统计检验方法的从业经验（以年为单位），这给出一个信息是统计检验方法的使用对科研结果准确性而言是很重要的）。

结果：

人口统计学

训练集和测试集的结果见表1：

根据年龄（P=.97），性别（P = .96），成像器类型（P = .99）和诊断（P = .99）对数据进行分类。疾病持续时间（P= .88）或MMSE（简易精神状态检查）（P = .97）没有差异。

在训练和预测集中，患者群体的教育水平没有差异（训练集，P=.463;预测集，P = .162），性别（训练集，P =.912；预测集，P = .152），成像器类型（训练集，P= .954；预测集，P = .937）或疾病持续时间（训练集，P =.164；预测集，P = .434）均无差异（见表2）（作者使用了多中心不同成像仪器的数据，因此确认数据间的差异不是由于这些其他变量导致的是非常重要的）。（划重点！）

AD 患者和bvFTD患者的额叶评估测验评分低于对照组（P <0.001）。AD患者年龄大于对照组（训练集，P = .042；预测集，P = .004），MMSE评分较低（训练集， P = .002；预测集， P = .003 ）（两组患者的评分均为轻度疾病阶段）。

AD患者在记忆力测试中比bvFTD患者（训练集，P < .001；预测集，P = .002）和对照组（P < .001）表现要差；而且两个病人组在语言测试中都比对照组要差（训练集，P = .022；预测集，P<.001）。AD患者和bvFTD患者在注意力和执行功能测试中的表现比训练组中的对照受试者差（P= .02)。在预测集中，只有AD患者在注意力测试中表现比对照组更差（P =.001）并且在执行功能测试中得分低于bvFTD（P = .014）和对照组（P<.001）。

这四个复合认知z域使81%(68/89)的AD患者与对照组区分开，并用于正确分类42例AD患者中的23例(55%)和47名对照组中的45名(96%)（(Wilks， λ， 0.482；P<.001)，记忆力具有最高的权重（这一点表明记忆力在区分AD患者与对照组时具有更强的预测能力）。ROC曲线显示了记忆域的优异性能(AUC，0.95；p<.001)。

对于 bvFTD 与对照受试者， 81 %（ 58/72 ）的分类是正确的：总共有15（60%）名bvFTD （共25）和43（92%）（共47名）对照受试者（0.527; P<.001）进行了正确分类。语言的负载最高（与AD患者组与其对照组最显著的分类贡献因子不同）。ROC曲线显示语言域的优异性能（AUC，0.92; P，.001）。

然而，对于AD组与bvFTD组的分类，四个复合认知z域仅在66%（67/44 中）中实现了正确的分类（在这里，作者证实了自己在文章背景分析中提出的行为学测量结果对于AD患者和bvFTD患者分类的不敏感性）。42例AD患者中33例(79%)和25例bvFTD患者中11例(44%)被正确分类(Wilksl，0.864；P=0.003)。记忆权重最高。ROC曲线显示了记忆域的性能（AUC，0.74；P = .002）

支持向量分类：训练准确性

图1显示了每个分类器的体素判别图，并且在最大正负权重值的30%处设置阈值。

结果总结见图2。

在训练集中，对于AD组与对照组，准确率为85%（P =.001），敏感性为83%（P = .001）， 特异性为87 %（P = .001 ）。对于bvFTD组与对照组，准确率为75%（P =.001），敏感性为62%（P =.001），特异性为83%（P = .029）。对于AD组与bvFTD组，准确率为81%（P =.001），灵敏度为88%（P =.001），特异性为69%（P = .001）。

泛化性：新被试中的单个体诊断预测

结果总结见图3。

使用判别权重图预测，在AD组与对照组中，正确预测88%（78/89）：86 %（36/42）的AD患者和 89 %（42/47）的对照受试者（ P<.001）是正确的。曲线显示出优异的表现（AUC，0.95; P<.001）。在bvFTD与对照组中， 正确预测85%（61/72）：正确预测bvFTD患者60%（15/25）和98%（46/47）对照组被试（Wilksλ，0.579; P<.001）。该ROC曲线显示出良好的性能（AUC,0.87;P<.001）。AD组与bvFTD组中正确预测82%（55/67）：其中正确预测AD患者93%（39/42），bvFTD患者64%（16/25）（Wilks,λ,0.718;P<.001）。ROC曲线显示出良好的表现（AUC，0.81;p<.001）。

讨论

1）此研究中使用的病例均具有相对正常的MMSE分数，表明处于病程的早期和轻度的疾病相关GM萎缩，仅选取那些MMSE分数、病程和年龄均表明轻度痴呆的bvFTD患者。SVM分类器可以辨别出AD和bvFTD患者的GM萎缩差异脑区，这些脑区在现有文献中也已经证实。

2）此研究采用独立的训练数据和预测数据，能够评估模型的泛化能力，避免了仅使用留一交叉验证引起的的偏差结果。

3）此研究使用较大的样本量，基于全脑体素分析。

4）其他研究表明，使用氟脱氧葡萄糖PET和单光子发射CT等其他模态能够提高分类的准确度，但是这些模态在大多数医院里并不能获得，此研究中的T1加权像的广泛适用性和MR成像的无侵害性，以及基于机器学习分类的自动化，使得它能够成为诊断区分AD和bvFTD的一种有用方法（但从临床使用的角度来看，还需要进一步对SVM模型进行优化，选择更合适的模型才可能获得更好的分类效果，毕竟从临床来讲，良好的分类效果（81%-95%）还是远远不够的），尤其是在缺少PET成像和脑脊液测量的医疗中心。

5）一些关于脑萎缩横截面和纵向效应的研究表明了AD患者、bvFTD患者和正常对照的组间差异，通过检测结构特征实现准确的单被试诊断将有助于临床应用，此研究通过把健康年长被试和SCD人群合在一起作为对照组，致力于单个被试诊断分类在真实临床环境中的实现。

6）由于诊断的异质性，针对来自不同记忆诊所的样本时，分类器的预测准确率也会不同。而此研究利用以前的诊断结果选择样本，这可能会提高预测准确率。

可能的局限性：

（1）使用二元分类器，来自两个候选组之外的测试用例将被错误地分配给其中一个。使用多类分类器将提高方法的诊断有用性。二元分类器通过基于GM密度的局部变化预测不同的痴呆亚型来辅助诊断过程。

（2）基于全脑方法的分类效果可能不是最理想的，使用感兴趣区域会提高分类准确度。但是基于感兴趣区域的方法存在缺点：1）提取感兴趣区耗时，会限制在日常实践中的实施；2）有限的搜索量会限制可检测的病症的数量。然而在有诊断支持的情况下，这不会造成特别严重的限制。

总结：

此文章的亮点主要表现在以下两个方面：

方法的先进性：

1）实现了在不同痴呆类型患者和正常对照之间的根据灰质密度图的自动分类，且准确度达到75%-85%。

2）训练的分类器在用于单个患者诊断时，具有优良的预测准表现（AUC为0.81-0.95)。

3）分类器是基于广泛使用的T1结构加权像检查的，有利于单被试自动诊断方法的应用。

对病人护理的影响：