磁共振成像(MRI)已经改变了我们对人类大脑的理解,通过对特定结构的能力(例如,损伤研究)和功能(例如,任务功能MRI (fMRI))的复制映射。心理健康研究和护理还没有从核磁共振成像中实现类似的进步。一个主要的挑战是复制大脑结构或功能的个体间差异与复杂的认知或心理健康表型之间的关联(全脑关联研究(BWAS))。这样的BWAS通常依赖于适合经典脑成像的样本量(中位神经成像研究样本量约为25),但对于捕捉可复制的脑行为表型关联可能太小了。在这里,我们使用了目前最大的三个神经成像数据集,总样本量约为50,000人,以量化BWAS效应大小和可重复性作为样本量的函数。BWAS的关联比之前认为的要小,导致了统计上的研究不足,效应大小和典型样本量的复制失败。随着样本量增加到数千个,复制率开始提高,效应大小信息减少。功能性MRI(对比结构)、认知测试(对比心理健康问卷)和多变量方法(对比单变量)检测到更强的BWAS效应。小于预期的脑表型关联和人群亚样本的变异性可以解释广泛的BWAS复制失败。与影响更大的非BWAS方法(例如,损伤、干预和个人)相比,BWAS的可重复性需要数千个人的样本。
磁共振成像数据(如皮质厚度或静息状态功能连接(RSFC))越来越多地用于将大脑结构和功能的个体差异与复杂心理表型的典型变异(如认知能力和精神病理学)联系起来的宏伟任务。为了清楚地将BWAS与其他神经影像学研究区分开来,我们将其正式定义为对人类大脑结构/功能中常见个体间变异与认知或精神症状之间关联的研究。经典的单变量BWAS最近被更强大但更难以解释的多变量预测技术(如支持向量回归(SVR)和典型相关分析(CCA))所促进。BWAS在预测和减少精神疾病负担、增进对人类智力成就的认知能力的理解方面具有很大的潜力。然而,获得MRI数据仍然很昂贵(大约每小时1000美元),导致小样本BWAS结果没有被复制。
导致以人群为基础的心理学、基因组学和医学研究重复性差的因素,如方法学的可变性、显著结果的数据挖掘、过拟合、确认和发表偏倚以及不充分的统计能力,也可能影响BWAS。研究人员开始通过标准化分析、预先登记假设、公布无效结果以及共享数据和代码来解决复制失败的问题。尽管如此,仍有人担心依赖于相对较小的样本(openneuro的中位数样本量(n)) 可能也对BWAS复制失败有贡献。
小型研究最容易受到抽样变异性的影响,即总体子样本间相关性的随机变异。随着样本量的增加,样本量变异性降低,相关性以√n的速率稳定下来。因此,如果真正的脑范围相关性比先前假设的要小(例如,双变量线性相关性r = 0.2-0.8),则需要更大的样本来准确测量它们。其他以人群为基础的科学旨在坚定地表征相对较小的影响,如流行病学和基因组学(即全基因组关联研究(GWAS)),已经稳步地将样本量从低于100增加到超过100万。最近,神经成像协会收集了比以前大数量级的样本(例如,青少年大脑认知发育(ABCD)研究,n = 11874;Human Connectome Project (HCP), n = 1200;和UK Biobank (UKB), n = 35735),可以准确估计BWAS效应大小。从ABCD研究开始,使用HCP和UKB数据进行验证,我们进行了数十亿个单变量和多变量分析,以评估BWAS效应量和作为样本量函数的可重复性,样本量从小(n = 25)到大(n = 32,572)。
1. 精确地BWAS需要更大的样本
BWAS将大脑特征(例如,两个大脑区域(边)之间的RSFC)和行为表型(例如,认知能力)联系起来。为了估计ABCD数据中的全脑关联,我们将广泛使用的皮质厚度和RSFC指标与41项指标联系起来,以索引人口统计、认知和心理健康(补充表1)。在结构(皮质顶点、感兴趣区域(ROI)和网络)和功能(连接(边))的多个解剖分辨率水平上估计全脑关联。(图1)。
为了改善头部运动等讨厌变量的影响,我们应用了严格的去噪策略(n = 3,928;在8分钟;RSFC数据在过滤帧位移下的帧后截尾(filter - fd)<0.08毫米)。重复分析使用不那么严格的运动审查,保留了整个ABCD样本中的更大子集(n = 9753),产生了类似的BWAS效应大小分布。BWAS分析经常将单个大脑特征与单个行为表型联系起来。在图1a和1b中,我们展示了皮质厚度和RSFC之间的这种单因素关联的分布,以及两种广泛研究的表型,认知能力(NIH Toolbox总分)和精神病理(儿童行为检查表(CBCL)总分)。在完整的、严格去噪的ABCD样本中(n = 3,928),在所有脑区关联中,单变量效应大小中位数(|r|)为0.01。所有可能的脑区关联中,前1%的最大关联(大约1100万个总关联)达到了大于0.06的|r|值(图1a, b)。前10%的最大关联分布在感觉运动和关联皮层(图1c, d)。样本外复制的相关性最大的是|r| = 0.16。社会人口协变量调整导致效应量下降,尤其是最强的关联(前1% Δr = 0.014)。
图1 单变量BWAS的效应尺寸与样本变异性
较小的脑范围关联研究报告了较大的单变量相关性(r>0.2)比我们在更大的样本中测量到的最大影响。为了解决这一明显的矛盾,我们使用不同大小的样本来模拟独立研究小组的影响,以估计相同的大脑表型关联。对于最强的单变量脑全域关联,我们绘制了样本大小的函数抽样变异性(图1e, f, n = 253,928)。在n = 25时,单变量相关性的99%置信区间为r±0.52,说明BWAS效应可能会因偶然因素而被强烈夸大。在较大的样本中(每组n = 1,964),前1%最大的BWAS效应平均仍然被夸大了r = 0.07(78%)。在n = 25时,两个独立的总体子样本可以得出关于相同大脑行为关联的相反结论(例如,图1g, h),这完全是因为抽样的变异性。所有大脑指标和行为表型的样本大小图的抽样变异性见附图4-6。任务功能磁共振成像数据也与认知表型相关。最近的研究表明,处理与RSFC相似的任务fMRI数据,并结合两种方式可以略微加强BWAS效应。因此,我们还在ABCD研究数据中估计了任务和休息功能连接的单变量BWAS关联,它们产生了相同的关联强度分布。HCP收集了各种各样的功能磁共振成像任务,使我们能够计算出86个任务激活对比和39个行为测量之间的所有脑范围的关联。经典任务fMRI激活和RSFC的BWAS效应大小分布紧密匹配。低的测量可靠性会减弱两个变量之间的观测相关性。样本行为表型的个体内测量可靠性(NIH Toolbox, r = 0.90;CBCL, r = 0.94)和影像学测量(皮质厚度,r>0.96;RSFC: ABCD, r = 0.48;HCP, r = 0.79;UKB, r = 0.39)为中到高。尽管行为(NIH Toolbox, CBCL)和皮层厚度测量已经接近其可靠性上限,但RSFC测量可靠性的进一步提高理论上可能会略微增加效应大小。由于真实关联强度的基本生物学限制和/或行为表型和MRI物理的限制,BWAS的理论最大效应量不太可能达到。
2. 效应大小在不同数据集复制
自ABCD研究数据(n = 11874;年龄范围:9 - 10岁;20分钟,收集RSFC)来自21个位点的儿科队列(多扫描仪类型),我们试图在单位点、单扫描仪类型的成人数据中复制BWAS效应大小。因此,我们使用了大型研究中每个参与者包含最多数据的HCP数据集(n = 1200;年龄范围:22 35岁;单一的扫描仪;60分钟,RSFC收集),以及UKB数据集,该数据集样本量最大,但每个参与者的RSFC数据更少(n = 35735;年龄范围:40 - 69岁;单扫描类型;6 min,收集RSFC),验证单变量BWAS效应大小分布。三个数据集在包含RSFC和认知能力数据方面有重叠。为了控制样本大小的影响,对ABCD和UKB数据集进行下采样,以匹配HCP (n = 900,严格去噪)。在三个大小匹配的数据集中,我们发现RSFC和认知能力之间的关联的效应大小分布相似(图2;n = 900 ABCD, |r|>0.11;HCP, |r|>0.12;UKB, |r|>0.09)。为了解释潜在的多站点效应,我们直接比较了HCP(单站点)和ABCD数据集之间的采样可变性,以及单个ABCD站点(n = 603)和其余20个站点之间的采样可变性。单站和多站样本的抽样可变性是相等的,这强调了ABCD研究跨站协调工作的有效性。单变量BWAS效应大小分布(图2,扩展数据图5、6)跨年龄(9-69岁)、位点、扫描仪类型和脉冲序列的普遍性表明,在当前的技术和方法中,BWAS是通用的。
图2 在不同大型影像数据集中,BWAS效应尺寸是一致的
3. 统计误差限制了可重复性
统计错误率取决于效应大小和显著性检验阈值。为了量化小于预期的效应量和抽样可变性(即在总体子样本中关联的随机变异)的配对如何影响BWAS再现性,我们使用非参数bootstrapping生成更小的BWAS子样本,并通过显著性阈值(P<0.05 ~ P <10^-7;图3),并用分析统计功率估计验证了结果。BWAS样本大小普遍存在统计误差。即使样本数量高达1000个,假阴性率(图3a)也非常高(75%-100%),半数统计上显著的关联至少被夸大了100%(图3b)。更宽松的统计阈值减少了假阴性和效应规模膨胀,但增加了符号错误的比率(图3c)。统计功率(1个假阴性率),反映了检测到显著效应的概率,即使在相对较大的样本容量下,统计功率仍然很低:n = 3928时的最大统计功率为0.68(图3d)。考虑到典型大小样本中单变量BWAS的高统计错误率和低功耗,我们量化了在大小匹配的复制数据集中复制显著的单变量关联的概率(图3e;P = 10^-7 ~ 0.05)。为了与常见的实践保持一致,我们将成功复制定义为在样本内和样本外通过相同的统计阈值。在最大的分裂一半样本量(n = 1964)中,25%的单变量BWAS复制成功,阈值为P <0.05. 在样本容量更典型的BWAS (n <500)时,复制率约为5%(图3e)。矛盾的是,对多重比较进行校正会降低单变量BWAS效应成功复制的概率(图3d, e)。更严格的统计阈值会降低假阳性率(图3f),但会增加假阴性率(图3a),从而降低统计功率(图3d)。在低功率BWAS中,对非常大的相关性选择更严格的统计阈值,这些相关性最可能因抽样可变性而被夸大(图1e,f)。
图3 单变量BWAS的统计误差和可重复性
4. 多变量BWAS可重复性
多变量方法使用加权脑模式来预测单一行为表型(SVR;例如,认知能力),或多种表型的组合(CCA;例如,所有NIH工具箱分量表)。为了检验作为样本大小函数的多变量脑范围关联,我们在发现集数据上训练SVR和CCA模型(样本内;包括嵌套交叉验证(SVR)和主成分分析(PCA)降维(SVR和CCA)),随后使用SVR (rpred)和CCA (rCV1)关联强度的标准样本外估计来测试它们对复制集的泛化(图4)。通过为每个样本量生成引导子样本(n = 100)来评估抽样可变性。使用非参数空分布检验多变量样本外关联的统计显著性。通过多变量方法(SVR和CCA)、成像模式(皮质厚度和RSFC)和行为表型(认知能力和精神病理学),典型的神经成像生成变量的小发现样本,膨胀的样本内关联往往没有通过统计显著性阈值(图4a-d)。将样本容量增加到数千名参与者,提供了适度的统计复制,降低了可变性,样本内和样本外关联之间的差异也较小。平均而言,RSFC(对比皮质厚度)和认知(对比精神病理)测量提供了更强的样本外关联(图4a-d),更接近样本内估计(图4e)。缩小复制的定义以检测样本外数据的统计显著性,并不能减轻对大样本量的需求(补充表2)。与单变量相比,多变量样本外关联更强,尤其是在大样本量的情况下。即使在最大的样本量(n≈2000),多变量样本内关联仍然平均膨胀(样本内到样本外:Δr = 0.29;图4e),特征权重是可变的。通过使用相对低维的特征空间使样本外复制最大化,重申脑范围的关联表现在广泛分布的回路中,与单变量BWAS一致(图1c、d)。在行为表型中,多变量样本外关联与单变量效应大小稳健相关(r = 0.79, P<0.001;图4 f)。
图4 多变量BWAS
5. 影响力不足的BWAS悖论
在较小的样本量中,最大的、最夸大的BWAS效应在统计上最有可能显著,因此,矛盾的是,最可能被发表。通常,BWAS已经足够强大,只能检测膨胀相关性的统计显著性(图3d)。较小样本中的高采样可变性经常偶然产生强关联(图1e, f)。神经影像学中常见的更严格的样本内统计阈值(即多重比较校正)降低了BWAS的功率,从而通过选择更膨胀的效应使我们更深地陷入悖论(图3)。当试图复制膨胀的BWAS关联时,回归均值(实际效应大小)不显著(即,复制失败)是最可能的结果(图3、4、扩展数据图8)。对显著的、更大的BWAS效应的偏好限制了无效结果的发表,使膨胀的效应规模长期存在,这是后续影响力分析和元分析的基础。
6. 小样本神经影像重要性
神经成像研究没有放之四海而皆准的解决方案;最小样本量要求取决于研究设计。只有神经影像学的研究通常在小样本量下得到充分的支持。例如,人类功能性大脑组织在群体间的中心倾向可以通过在小样本内(即n = 25。通过对同一个体重复采样可以生成精确的个体特异性RSFC和fMRI激活脑图。小样本也为减少MRI伪影提供了蓝图,增加了可用数据量。使用非BWAS方法,人类大脑和行为之间的许多基本联系已经被发现,并在小型神经成像样本中得到复制。在人体内设计(如纵向)、诱导效应研究(如损伤或任务)或两者兼有(如干预)的研究常常增加了测量的可靠性和效应大小。对于罕见的临床疾病,收集大量样本是不可能的。在许多情况下,亲自实施的诱导效应方法不仅具有成本效益,而且与临床护理最为相关。因此,小样本的神经成像对于研究人脑始终是至关重要的。
7. 大样本BWAS研究的重要性
大型神经成像联合数据(ABCD、HCP和UKB)显示,小的BWAS效应和人群抽样可变性通常会导致膨胀的、不可复制的大脑表型关联,直到样本规模达到数千。因此,BWAS应该使用至少具有数千个高质量、标准处理的样本的数据集。还应考虑潜在的混淆效应和对统计显著性的解释。基因组学从其可重复性危机中恢复为BWA2树立了一个有价值的榜样。早期的候选基因研究力量不足,许多常见遗传变异和精神表型之间的关联无法被复制。作为回应,GWAS财团已经将基因组样本增加到数百万份,并利用专门的研究设计(如双胞胎)和方法创新(如多基因风险评分),并制定了严格的数据标准。幸运的是,由于效应量较大,与GWAS相比,BWAS的发现可以在相对较小的样本中实现重复性。
8. 可重复地将大脑和行为联系起来
所有的大脑行为研究都将受益于产生更高质量的大脑和行为数据的技术进步,这些数据具有更高的效率,例如fMRI的实时质量控制、多波段多回声序列和热去噪,以及具有生态瞬时评估和被动感知的深度行为表型。与GWAS一样,资助机构应该通过强制性的共享政策来促进与BWAS相关的数据集的聚合。即使对于以相同方式收集和处理的大型数据集,样本内关联比样本外复制更强(图4e,扩展数据图8);因此,报告样本内和样本外效应大小应该是出版和资助的要求。BWAS还可能受益于集中收集最强大的大脑表型关联的数据(例如,功能vs .结构,直接行为vs .问卷)。与基因组不同的是,大脑预计会随着时间的推移而改变,并可以被伦理地操纵。为了获得更大的效应量和统计力,神经科学应该关注参与研究设计而不是横断面研究设计,以及介入研究(治疗、药物、脑刺激和手术)而不是观察性研究设计。与其将预先定义的心理结构和大脑特征联系起来,数据驱动的综合大脑行为表型将进一步推进我们对认知和心理健康的理解。总之,我们将神经成像标记物与复杂的人类行为联系起来的前景比以往任何时候都要好。
参考文献:Reproducible brain-wide association studies require thousands of individuals
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。