前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大脑年龄预测:机器学习工作流程的系统比较研究

大脑年龄预测:机器学习工作流程的系统比较研究

原创
作者头像
悦影科技
发布2023-06-25 08:27:09
6060
发布2023-06-25 08:27:09
举报

摘要

脑解剖扫描预测的年龄和实际年龄之间的差异,如脑年龄增量,为非典型性衰老提供了一个指示。机器学习 (ML) 算法已被用于大脑年龄的估计,然而这些算法的性能,包括(1)数据集内的准确性,  (2)跨数据集的泛化,  (3)重新测试的可靠性,和(4)纵向一致性仍然没有确定可比较的标准。本研究评估了128个工作流程,其中包括来自灰质 (GM) 图像的16个特征和8个具有不同归纳偏差的ML算法。利用四个覆盖成人寿命的大型神经成像数据库进行分析 (总N=2953,18-88岁),显示了包含4.73—8.38年的数据集中平均绝对误差 (MAE ) ,其中32个广泛抽样的工作流显示了包含5.23—8.98年的交叉数据集的MAE。结果得到:前10个工作流程的重测信度和纵向一致性具有可比性。特征的选择和ML算法都影响了性能。具体来说,体素级特征空间 (平滑和重采样) ,有和没有主成分分析,非线性和基于核的ML算法表现良好。在数据集内和跨数据集内的预测之间,大脑年龄增量与行为测量的相关性不一致。在ADNI样本上应用表现最佳的工作流程显示,与健康对照组相比,阿尔茨海默病患者和轻度认知障碍患者的脑龄增量明显高于健康对照组。在存在年龄偏倚的情况下,患者的脑龄增量估计因用于偏倚校正的样本而不同。总之,大脑年龄具有一定应用前景,但还需要进一步的评估和改进。

1. 介绍

机器学习 (ML) 方法, 以及大型的神经成像数据集,可以提供个体水平的非典型性老化的量化。事实上,ML算法可以捕捉与健康或典型衰老相关的大脑年龄相关变化的多变量模式,可以用来预测年龄,如大脑的年龄。但是时间和预测之间有很大的偏差,这就可以反映非典型性衰老,即脑年龄和实足年龄之间的较高的积极差异。

大脑年龄的增量 (简称为增量),表示“年龄变老”的大脑,可作为未来经历与年龄相关的健康问题的风险指标,增量在数量上与一些与年龄相关的风险因素和一般身体健康,如握力较弱、肺功能较差、中风史、酒精摄入频率较高、死亡风险增加,以及较差的认知功能相关。总的来说,随不同的ML工作流程设计和其他的分析的完善,增量有可能作为大脑完整性的综合生物标志物。研究表明,全局和局部灰质 (GM) 体积 (GMV)损失随老化和神经退行性疾病出现而加速损失,所以GMV成为非典型衰老的有望指标,使用GMV的脑年龄预测模型往往表现更好。

脑年龄估计工作流由一个特征空间和一个ML算法组成,每个算法都有多种选择,例如脑图谱中具有额外平滑重/采样或parcel-wise体素数据选择特征,从大量的ML算法中进行选择。这些选择会影响效果,又由于研究在实验设置和方法上也存在差异,如所使用的特征空间、ML算法、年龄范围和评价标准,因此很难进行比较,但现实中使用的脑年龄估计模型几个评价标准应为;  (1)模型应该很好地概括来自训练点的新数据和来自新点的数据,(2)估计的年龄必须在重复测量中可靠,(3)具有纵向一致性。

本文系统地评估了128个工作流,这些工作流包括来自GM图像的16个特征空间和8个具有不同归纳偏差的ML算法。使用几个年龄范围较大的大型神经成像数据库,首先评估这些工作流的数据集内和跨数据集性能,然后评估一些表现最好的工作流程的重测可靠性和纵向一致性。随后在一个临床样本中评估了最佳表现的工作流程的性能。后续分析来还调查了预处理(CAT vs SPM)和组织类型(GM vs GM+WM+CSF)对预测性能的影响。

2. 材料和方法

使用几个大型神经成像数据集健康受试者T1-wavien (T1w) 磁共振成像 (MRI) 数据和连接体数据集。纳入标准为年龄在18岁至90岁之间。使用ADNI数据库评估脑年龄在神经退行性疾病中的效用,纳入健康对照组 (HC,N = 209) 、早期和晚期轻度认知障碍 (EMCI,N = 237;LMCI,N = 128) 和阿尔茨海默病 (A D,N = 125) 受试者的3张T1w图像。使用了各种行为/认知测量方法来计算与增量的相关的因素,包括流体智力、卡特尔文化公平测试、CamCAN数据集的运动学习任务反应时间等。

2.1 数据准备

所有的T1w图像都使用计算解剖工具箱 (CAT) 12.8版本进行了预处理。经过偏置场校正和组织类分割后,使用1 mm的Geodesic Shooting templates精确优化归一化(regstr = 1),输出1 mm isotropic图像。然后将归一化的GM段调制为线性和非线性变换。为了与breanageR模型进行比较,我们使用了BrainageR使用的7个数据集,并使用CAT12.8对其进行预处理。为了评估预处理和组织类型的影响,使用SPM12的预处理,输出三个组织片段(GM、WM和脑脊液)。

表1 本研究中所使用数据集的样本特征

图片
图片

2.2 工作流

每个工作流都由一个特征表示法和一个ML算法组成。我们评估了128个工作流,包括16个特征表示和8个ML算法。

2.3.1 特征表示

这16个特征表示来自cat预处理后的体素级GM图像,使用体素级数据。由于样本数量过多和维度限制会导致过拟合,所以本研究采用二维降低方法,在平滑和重采样后使用体素级GMV提高信号噪比,还使用了一个图集来总结来自不同大脑区域(parcels)的数据。

图片
图片

图1.选择脑年龄预测工作流程的框架。首先使用5倍交叉验证 (CV) 评估了总共128个工作流的数据集内预测性能。接下来,根据CV平均绝对误差 (MAE)选择32个工作流,并评估跨数据集的预测性能。使用4个数据集 (CamCAN、IXI、eNKI和1000BRAINS) 进行数据集内和跨数据集评估。然后,根据测试MAE从32个工作流中选择10个,并使用OASIS-3和  CoRR数据集评估测试重测信度和纵向一致性。在考虑了所有的评价标准后,选择了表现最佳的工作流。

2.3.2 机器学习算法

我们纳入了8种涵盖不同归纳偏差的ML算法:岭回归 (RR) 、LASSO回归 (LR) 、弹性网回归 (ENR)、核岭回归 (KRR) 、随机森林回归 (RFR) 、GPR、线性核(RVRlin) 和1度多项式核 (RVRpoly ) 。

2.3.3 学习设置和软件

使用内部交叉验证 (CV) 以嵌套的方式估计ML算法的超参数。在训练前,去除低方差的特征(阈值< 1e-5) ,对其余特征进行z评分,使其均值和单位方差为零。任何预处理步骤,包括PCA,都以CV-consistent模式应用, 以避免数据泄漏。

2.4 分析设置

首先评估了128个工作流的数据集内CV性能。接下来,通过对数据集内的CV性能进行均匀采样,我们选择了32个表征总体性能模式的工作流来进行跨数据集评估,使数据集内性能较低的工作流在跨数据集评估中表现良好。最后,对32个工作流程中的前10个工作流程的重测信度和纵向一致性进行了评估。在考虑了所有的评价标准后,选择了表现最佳的工作流程,应用于ADNI数据,并与大脑年龄比较。具体步骤为:

2.4.1 数据集内和跨数据集内的评估

我们分别在四个数据集,CamCAN、IXI、eNKI和1000个BRAINS上评估了128个工作流。为了估计每个受试者的单一样本外,我们使用了5倍CV,每一次保留20%测试,剩余的80%的数据用于训练,并使用5次重复的5倍(5×5倍)嵌套CV获得泛化估计。所有CV分析均按年龄进行分层来保持年龄分布。单一的预测计算了两个指标:测试性能和CV性能。测试性能是通过对外部5倍的平均来获得的,CV性能是通过首先在内部的5×5倍CV上平均,然后在外部的5倍CV上平均来获得的。最后,对四个数据集的CV和测试性能取平均值。使用平均绝对误差(MAE) 、预测和真实(时间)年龄之间的皮尔逊相关性以及决定系数R2来评估性能。工作流程按其平均CV MAE的递增顺序排列,分为16组,从每个组中选择前两个工作流(CV MAE最低)。

我们在跨数据集上测试了这32个选定的工作流, 以获得样本无偏不倚的性能,以此模拟训练和测试数据来自不同的来源。4个数据集中的3个(CamCAN、IXI、eNKI和1000 个BRAINS) 被合并形成训练数据,并使用保留数据集作为测试数据。对训练数据进行5×5倍CV,以估计使用内部CV对超参数调优的泛化性能。CV性能平均超过5×5倍的CV,然后超过4个保留数据集。测试性能在四个数据集上取平均值,再次使用MAE、预测年龄和真实年龄之间的皮尔逊相关性以及决定系数R2来评估性能。这32个工作流程按其平均测试MAE的递增顺序排列,选择了前10个工作流。

2.4.2 重测的信度和纵向一致性

使用10个选定的工作流来训练模型,并结合4个数据集作为训练数据(IXI + eNKI + CamCAN + 1000BRAINS,N = 2953)。利用OASIS-3和CoRR数据集对10个模型的重测可靠性和纵向一致性进行了评估。使用相同的受试者相差不到三个月、1和2年的两个数据。计算了两次扫描的增量(预测的年龄减去扫描时间的年龄)之间的一致性相关系数 (CCC)。纵向一致性来自同一受试者的两次扫描,复测时间为2—3.25年,计算两次扫描中预测年龄的差异和实足年龄的差异之间的皮尔逊相关性。

2.5 偏置校正

当计算增量与非成像测量的相关性时,使用年龄作为协变量,偏差校正预计与偏相关分析相似。没有使用测试数据的实际年龄可避免信息泄漏,使工作流之间的比较产生偏差。

2.6 与认知测量的相关性

理解偏差校正的影响和协变量对行为相关性的影响,分析行为/认知测量相关性,从CamCAN and eNKI数据集计算(1)未修正的增量,(2)未修正的增量与年龄作为协变量,(3)修正增量,(4)修正与年龄作为协变量。如果偏差校正消除了增量和年龄之间的相反关系,我们期望(2)、 (3)和(4)会给出类似的相关性。此外,使用从数据集内和跨数据集预测中获得的增量进行分析以评估用于学习偏差校正模型数据的影响。

2.7 临床样本中的脑年龄

使用ADNI数据集来验证在临床样本上的最佳表现工作流程,估计并比较了HC、 EMCI、LMCI和AD受试者之间的增量。使用在四个数据集上训练的表现最好的工作流来获得预测,然后应用偏差校正模型,比较两种偏差校正模型,一种使用来自四个训练数据集的CV预测,另一种使用ADNI数据中的HC样本,采用方差分析进行组内校正后的增量校正比较。最后研究校正后的增量与三个临床测试评分,即MMSE、CDR和 FAQ之间的关系。相关性分别使用整个样本和不同的诊断组,使用与年龄的相关性作为协变量。

2.8 MAE与增量活动和增量行为相关性的关系

新数据中的一个大增量可以被认为是非典型老化的指示。但过度拟合的大脑模型 (高训练准确性)在识别病理方面并不是最敏感,一个相对适度拟合的模型产生了更多的对照组和疾病组之间的显著脑年龄增量组间差异和较大的效应量。为了研究这种可能性,训练从跨数据集分析中选择的32个工作流,并将4个数据集汇集在一起进行训练,应用于时间点2的ADNI数据。将模型的MAEs与AD样本中的修正均值增量进行比较,检验它是否与增量—行为相关性有关。

2.9 比较brainageR与预处理和组织类型的影响

将表现最好的工作流程与一个已经可用的脑年龄估计模型进行比较。使用GPR算法对3377名健康个体进行训练。使用SPM12对T1w图像进行分割和归一化,从中提取GM、WM和脑脊液向量,PCA 用于降低数据维数,并保留了435个解释80%方差的成分。请注意,大脑ager使用了三种组织类型,本研究关注的是GM。为了避免不同训练数据导致的偏差,我们使用了breanageR使用的相同受试者的数据。接下来,使用这些训练数据,从CAT 12.8中提取的GMV训练表现最好的工作流,并在三个数据集上与已经训练的大脑模型进行比较。

预处理和组织类型如何影响模型的性能比较关注于(1)cat预处理的GMV,(2)SPM预处理的GMV,(3)SPM预处理的GM、WM和脑脊液图像。

3 . 结果

3.1 数据集内的预测和跨数据集内的预测

平均CV MAE ( 4.90 – 8.48年 ) 和平均检验MAE ( 4.73 – 8.38年 ) (图2a)相似,表明嵌套的CV泛化估计可有效表明测试性能。测试数据上的真实年龄与预测年龄之间的相关性范围为0.81~0.93,而年龄偏差(相关性)的范围为−0.22到−0.83 (表S2)。总的来说,所有工作流的预测都显示出很高的相似性(四个数据集的平均相关性为0.83-0.99)。前20个工作流程显示了可比性的CV和测试MAE,差异小于0.4年。性能良好的工作流主要由体素级平滑和重采样的特征空间组成,有和没有PCA,S4_R4 (使用4 mm FWHM核平滑,重采样到4 mm空间分辨率) 通常表现更好。GPR、KRR、RR和两种RVR算法普遍表现较好。大多数算法在分段特征上表现更差,而RFR的表现通常最差。工作流S4_R4 + GPR表现最好(其在四个数据集上的性能见表2a)。该工作流程显示了最低的平均CV MAE和高R2和真实年龄和预测年龄之间的高相关性。第二优的工作流是S4_R4 + PCA + GPR。跨数据集分析的32个工作流显示,平均CV MAE (4.28 – 7.39年) 低于测试MAE(5.23 – 8.98年,见图2c)。真实年龄与预测年龄之间的检验集相关性范围为0.82~0.93,而年龄偏差范围为−0.27~−0.75。所有的工作流在他们的预测中都显示出高度的相似性(在四次运行中的平均相关性为0.83-0.99)。由于这种高度的相似性,从32个工作流中得到的集成并不比性能最好的工作流更好。在数据集内表现良好的工作流在跨数据集预测中也表现良好。选择了10个测试MAE最低的工作流进行进一步分析。这些工作流只包含有和没有PCA的体素级特征空间(S4_R4,S4_R8,和S0_R4)。ML算法包括GPR、RVRlin、RR和LR。表现最好的工作流程是S4_R4 + PCA + GPR,平均测试MAE最低以及高R2,真实年龄和预测年龄之间的高相关性和中度年龄偏倚,其在所有四个数据集上的性能见表2b。其次是S4_R4 + GPR工作流表现较好。

图片
图片

图2. 数据集内和跨数据集内的结果。a.该线形图显示了128个工作流的CV MAE(四个数据集的平均值),并按递增的顺序排列。橙色的条表示32个选定的工作流的MAE,它们的名称在左边的表格中。b.使用S4_R4 + GPR工作流程预测数据的实际年龄之间的散点图。c. 显示32个工作流的测试MAE (4次运行的平均值)(所有工作流的名称在表S3中给出)。紫色的条表示10个选定的工作流的MAE,它们的名称在右下角的表中。d.使用S4_R4 + PCA + GPR工作流程的实际年龄和交叉数据集之间的散点图。

表2. 在不同数据集上的最佳工作流的性能指标

3.2 重测信度和纵向一致性

在不到3个月的短时间重测内,所有10个工作流程均表现出较高的重测信度。在CoRR数据集中,较长的重测时间为1—2年 ,CCC范围在0.94-0.97之间(年龄范围=18-88岁)(表3) 。这些结果表明,年龄是由选定的工作流程可靠估计的。在CoRR数据集中,10个工作流程中有6个在重测时间为2—3.25年时呈显著的正线性关系(0.451–0.437,p < 0.05)。相比之下,在OASIS-3数据集中(重新测试持续时间为3—4年)中,没有一个工作流显示出线性关系。虽然工作流程显示出相似的重测信度和纵向一致性,但工作流程S4_R4 + PCA + GPR在这些子样本上的MAE最低(表3)。因此,考虑到所有的分析场景、数据集内、跨数据集、重测可靠性和纵向一致性,尽管其他工作流也具有竞争力,可以认为S4_R4 + PCA + GPR工作流表现良好。

表3. 前10个工作流的真实年龄 (CCC)与其各自的真实年龄和预测年龄之间的平均绝对误差 (MAE)

图片
图片
图片
图片

图3. 纵向一致性

3.3 偏差校正和与行为/认知测量的相关性

在CamCAN数据中,FI与年龄呈负相关,而运动学习反应时间与年龄呈正相关。在eNKI数据中,CWIT抑制试验完成时间和TMT数字字母转换试验完成时间与年龄呈正相关。另一方面, WASI矩阵推理得分与年龄呈负相关,WASI相似性得分与年龄不相关(表4)。

表4. 脑龄增量与各种行为测量的相关性,有/无偏差校正。A.数据集内的预测。B.跨数据集预测。年龄被用作协变量。缩写:CWIT:颜色词干扰测试,TMT:轨迹制作测试,WASI-II:韦氏智力量表

图片
图片

3.4 在ADNI样本中的预测

在时间点1,HC的平均未修正增量为−5.97年,EMCI为−为4.39,LMCI为−为3.57,AD为−2.13(图4a)。使用训练数据(CV预测)的偏差校正模型中得到的斜率和截距不能完全纠正低估年龄的偏差(图4b)。使用整个ADNI的HC样本进行偏倚校正(图4c),方差分析揭示了各组间的增量差异显著,事后t检验显示AD和HC之间存在显著差异、EMCI(p = 1.87e- 05)、LMCI (p =0.043),HC和LMCI(p = 0.022)。在时间点2,该模式与时间点1相似,但校正后的增量值较高EMCI = 1.15年,LMCI = 2.88,AD = 6。(图4e-f,表5)。以年龄为协变量,计算HC样本校正后的增量与各种临床试验评分之间的相关性(表6)。在时间点1,增量与MMSE呈负相关,并在整个样本中与FAQ呈正相关。在个别诊断组中未发现相关性,或由于评分数据不足而无法计算。在时间点2,增量与MMSE呈负相关与CDR和FAQ呈正相关。在AD组中,增量与FAQ呈正相关,而与MMSE或CDR无正相关。在LMCI组中,增量与FAQ呈正相关,与MMSE呈负相关,与CDR不相关。在EMCI组中,增量与CDR呈正相关,而与MMSE和FAQ评分不相关。在HC组中未发现这些相关性。

图片
图片

图4. 临床人群中的脑年龄增量

表5. 使用性能最佳的(S4_R4 + PCA + GPR)工作流对两个时间点的ADNI数据进行预测性能

3.5 MAE与增量和delate相关行为的关系

校正后的AD平均增量范围为5.43~10.01年,一些表现相对较差的模型产生的增量较高。较低的准确性(较高的MAE)与较强的增量-MMSE相关性相关(图5c)。相反,在两个健康样本中,较低的MAE与较强的相关性大脑行为,CamCAN中的增量-运动学习反应时间,以及eNKI数据集中的增量-CWIT抑制试验完成时间相关(图5a和b)。

图片
图片

图5. 使用32个工作流程获得的MAE和增量-行为相关性之间的相关性

3.7 与brainageR的比较以及预处理和组织类型的影响

使用CoRR、OASIS-3和MyConnectome数据集,比较了S4_R4 + PCA + GPR工作流和在相同数据上训练的brainageR模型(图6)。在CoRR数据集中,S4_R4+PCA+GPR优于brainageR的MAE,但brainageR表现出较低的平均年龄偏差。来自两个模型平均真实和预测年龄之间的相关性没有显著差异。在OASIS-3数据集,S4_R4+PCA+GPR低于的brainageR的MAE(MAE=5.07,r=0.805,biassr=−0.058)(图6b)。预测的年龄和两种模型的偏差相似,但我们的模型的r值显著高于这两种模型。复测可靠性在OASIS-3数据集的重测持续时间<3个月的样本中高于brainageR。两种模型在重测时均未显示出纵向一致性持续时间为3—4年。此外,S4_R4 + PCA + GPR工作流程在MyConnectome上的表现明显优于brainageR(MAE=7.18)。在IXI和CamCAN数据集上使用SPM预处理,比较了S4_R4 + PCA + GPR工作流程数据集内性能。在这两个数据集上,cat派生的GM特征表现更好优于SPM衍生的通用特性(表7)。来自三种组织类型的SPM衍生的特征表现得更好,而不是只使用SPM衍生的GM特征,这表明不同的组织类型携带互补的信息。

图片
图片

图6. 比较最佳工作流程(S4_R4 + PCA + GPR)与brainageR模型。注:a、CoRR数据集(左)使用107个子样本比较两个模型的预测年龄与真实年龄的盒子图,(中)时间(真实)年龄和预测年龄之间的散点图,(右)时间(真实)年龄和大脑年龄增量之间的散点图。b.OASIS-3数据集使用一个随机的子样本创建的(N = 120) c.Myconnectome数据集(红叉表示从分析中删除的离群值扫描;最终的N = 19)。d.执行针对所有数据集的指标。对于CoRR数据集,该表显示了100次次采样数据的平均值,但图来自一次迭代。

表7. 使用cat预处理GM特征训练的模型之间的数据集内性能比较

图片
图片

4. 讨论

4.1 特征空间与ML算法的影响

S4_R4 + PCA + GPR的工作流能很好地应用到新数据,在数据集和交叉数据集分析中,实际年龄和预测年龄之间存在高度正相关。在数据集内分析中表现良好的工作流在交叉数据集分析中也表现良好。交叉数据集的CV MAE低于数据集内的CV MAE可能是因为交叉数据集分析中样本量较大或较小样本中可能过拟合。训练和测试数据的年龄范围影响绩效估计。具体来说,当使用狭窄的年龄范围时,MAE和RMSE等性能指标通常优于广义年龄范围评估。然而,在这些情况下,较低的误差和较小的脑年龄增量值并不一定是由于更好的模型性能,而是因为预测更接近于模型的平均年龄组。本研究关注的是广泛的年龄范围模型,获得的误差也在之前显示的范围内。结果表明,特征空间的选择和ML算法都会影响预测误差。一般来说,特征空间来自体素级GMV,如S4_R4、S4_R8和S0_R4使用GPR、KRR、RVRpoly和RVRlin算法在数据集内分析中表现良好。此外,非线性算法(带有RBF核的GPR)和基于核的算法(KRR和RVR)都优于RR和LR等线性算法。总之,使用非线性或基于核的算法(GPR和RBF核,KRR和多项式核度(1或2),平滑和重采样的体素级数据(如S4_R4,S4_R8)具有线性和多项式次1核的R)非常适合于脑年龄估计。至于PCA的应用有和无对模型结果影响不大。

4.2 重测的信度和纵向一致性

增量在一个短时间的扫描延迟上是可靠的。在纵向一致性分析中,在重测持续时间为2-3.25岁时,预测年龄的差异与实足年龄的差异之间呈正相关的线性关系,因此,重测高信度支持在临床环境中使用脑年龄,但纵向一致性在不同数据集中结果有差异,还需要进一步的数据验证。

4.3 偏差校正的影响

用于估计偏差校正模型的数据可以显著影响校正后的增量,数据集内衍生的模型比交叉数据更充分地纠正了年龄偏差。这种差异可能是由于训练数据和场外测试数据之间的数据属性的差异导致。结果表明,偏差修正模型应用于一个新的数据库时,可能并不能很好地工作,即使训练数据本身由多个数据库组成。因此,可使用部分测试数据来纠正年龄偏差。然而,当测试样本很小或在极端情况下,这种方法可能是不可行的。

4.4 行为相关性、MAE与增量和增量行为相关性的关系

在分析增量和行为测量之间的相关性时,控制年龄是很重要的。此外,以年龄作为协变量,来自数据集内和跨数据集预测的增量-行为相关性之间存在差异。数据集内的数据产生了更好的偏差校正模型、行为相关性和增量估计。然而,当没有足够的数据可用时,所产生的模型可能无法纠正年龄偏差,导致平均增量的高变异性。年龄预测模型的实用性在于捕捉非典型老化,必须通过建立精确的模型最小化方法上的差异。最近的一项研究表明,过拟合模型的增量(即具有较高的训练精度)导致AD比CN的模型差异更小,而相对较低准确性的模型捕获了生物差异。在健康样本中,更高的准确性(较低的MAE)与较高的增量-运动学习反应时间(CamCAN)和增量CWIT抑制试验完成时间(eNKI)相关。相比之下,在AD患者中,准确性较低(MAE较高)的模型显示出较强的增量-MMSE相关性。这一观察结果表明,一些不太准确的模型可以更好地捕捉增量-行为相关性。由此推测,在患者群体中使用较低的准确性正则化模型可能是有益的,因为正则化可能会促使模型关注更少的包含典型老化相关信号的特定特征,反过来包含更多非典型老化的信息。目前还不清楚应该使用哪种增量-行为相关性,也未知跨行为评分、样本和障碍的模型的通用性,所以还需要进一步的研究。

4.5 神经退行性疾病的脑年龄较高

许多研究表明,MCI和AD以及广泛的神经精神疾病的全球和局部GMV下降,增量与MCI和AD患者的疾病严重程度和认知障碍相关的指标相关。值得注意的是,不同的工作流程可以导致AD中不同的增量估计,从而导致与认知测量的不同相关性。此外,平均修正后的增量取决于用于偏差校正样本的类型(数据集内或交叉数据集)和样本的大小。因此,不同研究比较时要谨慎。

4.6 与brainageR的比较及预处理和组织类型的影响

本研究的工作流程MAE更低,真实年龄和预测年龄之间的相关性更高,但也有更高的年龄偏差。这些差异很可能是由预处理方面的差异造成的,以及大脑中使用的三种组织类型,而不是只使用GM导致。cat衍生的GMV与SPM衍生的三种组织类型表现相似,都显示了GM在神经退行性疾病中的临床相关性,但还需要进一步的研究来明确区分组织类型的影响。

5. 结论

年龄预测的工作流程有许多选择,但特征表示和ML算法选择有实质性影响,体素方面的GM特征,特别是用4 mm FWHM核平滑和重采样到4 mm(S4_R4)的空间分辨率,优于parcel-wise特征。此外,执行PCA则没有影响预测性能,但它有助于减少计算资源。ML算法,包括径向基核的高斯过程回归,多项式1或2次核的岭回归,以及线性和多项式1次核的相关向量机表现良好。总之,一些工作流程有出较高的重测信度,但只有中等的纵向信度。在阿尔茨海默氏症和轻度认知障碍患者中,通过大量的对照样本纠正了更高的增量。本研究结果为应用增量作为一种潜在的生物标志物提供了证据,是未来的脑年龄预测研究的指南,同时也建议谨慎对待行为相关性和偏差校正的分析设置。

参考文献:Brain-age prediction: A systematic comparison of machine learning workflows.

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档