前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NC:数据泄漏会夸大基于连接的机器学习模型的预测性能

NC:数据泄漏会夸大基于连接的机器学习模型的预测性能

原创
作者头像
悦影科技
发布2024-06-14 15:21:22
710
发布2024-06-14 15:21:22

预测建模是神经影像学中识别大脑行为关系并测试其对未见数据的普遍适用性的核心技术。然而,数据泄漏破坏了训练数据和测试数据之间的分离,从而破坏了预测模型的有效性。泄漏总是一种不正确的做法,但在机器学习中仍然普遍存在。了解其对神经影像预测模型的影响可以了解泄露如何影响现有文献。在本文中,我们在4个数据集和3个表型中研究了5种形式的泄漏(包括特征选择、协变量校正和受试者之间的依赖)对基于功能和结构连接组的机器学习模型的影响。通过特征选择和重复受试者产生的泄漏极大地提高了预测性能,而其他形式的泄漏影响很小。此外,小数据集加剧了泄漏的影响。总体而言,我们的结果说明了泄漏的可变影响,并强调了避免数据泄漏对提高预测模型的有效性和可重复性的重要性。

理解大脑-行为关系中的个体差异是神经科学的中心目标。作为这一目标的一部分,利用神经影像数据(如功能连接)的机器学习方法在预测多种表型(包括认知表现、年龄和数项临床相关结局)方面越来越受欢迎。与经典的统计推断相比,预测在可复制性和普遍适用性方面具有优势,因为它在模型训练期间未见的参与者上评估模型本质上,数据被分割成训练和测试子集,例如通过k折交叉验证或简单的训练/测试分割,以便在不可见的数据上严格评估模型。不幸的是,数据泄漏可能会无意中违反训练数据和测试数据之间的界限。当关于测试数据的信息在训练期间被引入模型时,数据泄漏是指,使分离训练和测试数据的好处化为乌有

最近一篇关于机器学习的荟萃综述强调了17个领域的漏检率。329篇文献被鉴定为有泄漏。该综述描述了8种类型的泄漏:没有单独的测试集、在训练集和测试集上进行预处理、在训练集和测试集上共同进行特征选择、重复数据点、非法特征、时间泄漏、训练集和测试集之间的非独立性和抽样偏倚。数据泄漏常常导致模型性能膨胀,从而降低了再现性。在另一篇针对预测性神经影像学的综述中,57项研究中有10项可能通过在分离训练/测试之前对整个数据集进行降维而泄露了信息。由于泄露可能会极大地改变报告的结果,因此它导致了目前神经影像学的再现性危机。尽管泄露的流行和担忧,神经影像预测模型中由于泄露导致的性能膨胀的严重程度仍然未知。

在这项工作中,我们在四个大数据集中评估了泄漏对基于功能连接组的预测模型的影响,以预测三种表型。具体来说,在超过400个管道中,我们测试了特征泄漏、基于协变量的泄漏和个体泄漏。这些泄漏类型涵盖了Kapoor和Narayanan17所描述的5种泄漏类型(补充表1)。我们首先通过比较各种有泄漏和无泄漏管道的两个性能指标来展示泄漏对预测性能的影响。然后,通过比较模型系数,评估泄漏对模型解释的影响。此外,我们在四种不同的样本量重新采样数据集,以说明小样本量可能最容易受到泄漏的影响。最后,我们将我们的分析扩展到一个公共数据集中的结构连接组。总之,我们的结果阐明了神经影像数据集中多种可能形式的泄漏的后果,或者在某些情况下缺乏后果。

1. 结果

我们在以下四个数据集中分别获得了静息态fMRI数据:青少年脑认知发展(ABCD)研究 (N = 7822-7969)、健康脑网络(HBN)数据 (N = 1024-1201)、人类连接组项目发展(HCPD)数据(N = 424-605)和费城神经发育队列(PNC)数据(N = 1119-1126)。在整个研究过程中,我们使用带有5折交叉验证的岭回归5%的特征选择和L2正则化参数的网格搜索来预测年龄、注意力问题和矩阵推理。每个数据集的具体指标在方法部分描述,但选择这三种广泛的表型是因为本研究的所有数据集中都有它们。此外,这3种表型跨越的效应量范围大,对年龄的预测能力强,对矩阵推理的预测能力中等对注意力问题的预测能力较差,适合对泄漏进行基准测试。

我们首先在HCPD(章节“无泄漏管道的性能”-“Subject-level leak”)中评估了泄漏对预测的影响,然后,我们在其他三个数据集(ABCD, HBN, PNC)中展示了泄漏的影响(章节“在其他数据集中的性能评估”)。此外,我们比较了模型系数(“比较泄漏和无泄漏管道中的系数”部分),改变了样本量(“样本量的影响”部分),并进行了敏感性分析(“敏感性分析”部分)。本研究中使用的泄漏类型在图1中进行了总结,在“方法”部分进一步详细说明。

图片
图片

图1 本研究中使用的预测管道的总结

1.1 无泄露管道的表现

我们对4条无泄漏管道进行了评估,发现不同的分析选择导致了不同的预测性能(图2),通过Pearson相关r和交叉验证R2(也称为q2)进行了评估。我们的金标准模型包括协变量回归、研究中心校正和交叉验证方案(考虑到家族结构)中的特征选择。对注意问题(r = 0.01, q2 =−0.13)无预测能力,对年龄(r = 0.80, q2 = 0.63)有较强预测能力,对矩阵推理(r = 0.30, q2 = 0.08)有中等预测能力。值得注意的是,当模型预测给出的均方误差高于预测平均值时,q2可能是负的,注意力问题也是如此。

图片
图片

图2 非泄漏管道HCPD的预测性能,包括金标准、省略协变量回归、省略位点校正、同时省略协变量回归和位点校正。

排除现场校正后的性能几乎与金标准模型相同。然而,没有回归出协变量夸大了r,但对所有三种表型的q2有不同的影响,包括注意力问题,年龄和矩阵推理。虽然这些结果不是本文的主要焦点,但它们凸显了预测性能如何随着不同的分析选择而变化,特别是是否从数据中回归协变量。

1.2 特征泄露

在训练数据中选择特征,然后应用到测试数据中。在组合训练和测试数据中进行特征选择时,会发生特征泄漏。特征泄漏膨胀了每个表型的预测性能(图3)。年龄膨胀较小,矩阵推理膨胀较大,注意力问题膨胀最大。年龄具有较强的基线表现且受特征泄露的影响最小,而注意力问题具有最差的基线表现且受特征泄露的影响最大。此外,注意问题的预测从机会水平(r = 0.01, q2 =−0.13)变为中等水平(r = 0.48, q2 = 0.22),这突出了特征泄漏的潜在影响可重现性的努力。

图片
图片

图3 与金标准相比,HCPD中泄漏特征选择的预测性能。

1.3 协变量相关的泄露

在本研究中,协变量相关的泄露形式包括校正位点差异,并在合并的训练和测试数据中进行协变量回归(即在交叉验证折叠之外)(图4)。泄露位点校正对性能的影响很小。与本研究中的其他泄露形式不同,泄露协变量回归降低了注意问题、年龄和矩阵推理的表现。这些结果表明,泄漏不仅会通过虚假的性能膨胀,而且还会通过低估真实的效应量来影响再现性。

图片
图片

图4 协变量相关的泄露形式(包括泄露部位校正和泄露协变量回归)在HCPD中的预测性能。

1.4 个体水平泄露

由于在神经影像数据集中经常存在家族性的过度采样,通过家族结构的泄漏可能会影响预测模型。考虑到大脑结构和功能的遗传性,如果一个家族成员在训练集,另一个成员在测试集,则可能发生泄漏。家族泄漏对年龄和矩阵推理的预测性能无影响,但对注意问题的预测性能略有提高。此外,当重复测量数据(例如,多个任务)被错误地作为独立的参与者处理时,或当数据意外重复时,可能会发生受试者水平的泄漏。在这里,我们考虑了后一种情况,即数据集中有一定比例的受试者在三个不同的水平(5%、10%、20%;在所有情况下,受试者泄漏都提高了预测性能,20%的受试者泄漏对注意力问题、年龄和矩阵推理的影响最大。与在特征泄漏中看到的趋势相似,受试者泄漏的影响对于基线表现较弱的模型更显著。总体而言,这些结果提示,家族泄露在某些情况下可能影响很小,但通过重复测量产生的潜在泄露(即受试者泄露)可能在很大程度上提高性能。

图片
图片

图5 个体水平泄露形式在HCPD中的预测性能

1.5 ABCD的其他家族泄露分析

由于本研究中有家族信息的两组数据集中大多包含没有其他家族成员的参与者(HCPD: 471/605, ABCD: 5868/7969参与者没有家族成员),我们进行了几个额外的实验,以确定在更大比例的家族中,家族泄漏的影响。在这些实验中,我们使用ABCD而不是HCPD,因为ABCD在数据集中有多个成员。

首先,ABCD仅限于双胞胎(N = 563对双胞胎,共计1126名参与者),之后我们对所有三种表型和模型类型进行了100次5折交叉验证。在一个病例中,家族结构在交叉验证中被考虑在内。另一种是忽视家族结构,构成泄露。与使用整个数据集的情况不同,孪生数据集的泄漏在预测性能上有轻微到中度的提高(图6)。年龄膨胀为Δr = 0.04,矩阵推理和注意力问题膨胀为Δr = 0.02。

我们纳入了另外几个表型和模型,以比较泄露如何影响双生子研究(补充图2),结果相似。双胞胎之间的表型相似性与泄露导致的表现变化没有很强的关系(补充图3)。此外,基于模拟研究,泄露效应随着参与者属于一个多个体家族的百分比增加而增加(补充图4)。

图片
图片

图6 ABCD的预测性能比较金标准与双胞胎/家族泄漏

1.6 在其他数据集中的性能评估

与HCPD相比,我们在ABCD、HBN和PNC的11个管道中发现了相似的趋势(补充图5和6)。虽然排除了位点校正对HCPD或HBN的影响很小或没有影响,但对ABCD的影响很小。此外,不进行共变量回归通常夸大了在注意力问题、年龄和矩阵推理方面的表现。在所有数据集和表型中,泄漏的特征选择和受试者泄漏(20%)导致了最大的性能膨胀。特征泄漏对数据集和表型的影响不同。样本量最大的数据集(ABCD)受泄漏特征选择的影响最小,较弱的基线模型受特征泄漏的影响更大。受试者泄漏(20%)也夸大了在所有数据集和表型中的表现。泄露协变量回归证实了HCPD的结果,这是唯一一种持续降低性能的泄露形式。家族泄露和泄露部位校正效果甚微或没有影响。图7总结了在所有4个数据集和3种表型中,每个管道相对于金标准的性能变化。总体而言,本研究中只有泄漏特征选择和受试者泄漏提高了预测性能。

图片
图片

图7 评估所有流程和金标准流程在所有数据集和表型中的皮尔逊r和q2的性能差异

1.7 比较有泄漏和无泄漏管道的系数

确定泄漏管道和非泄漏管道的性能是否相似只说明了部分问题,因为两个模型可能具有相似的预测性能,但学习到的大脑-行为关系完全不同。因此,建立各种形式的泄漏的模型系数如何变化是理解泄漏可能产生的影响的一个同样重要的方面。我们首先计算了交叉验证的5次系数的平均值,并计算了这些系数与金标准模型系数之间的相关性(图8)。排除现场校正导致了较小的系数变化。同时,排除协变量回归或排除协变量回归和位点校正导致中等程度的系数变化。在泄露的形式中,泄露特征选择与金标准系数最不相似。其他显著影响系数的泄露形式包括家族泄露和20%受试者泄露。另外,泄漏管道与金标准管道之间的系数非常相似。我们还比较了每对11个分析管道的系数(补充图7)。有趣的是,尽管排除协变量回归或执行泄漏特征选择的系数与金标准系数相对不同,但这些系数彼此相对相似。这一结果可以通过在整个数据集中对脑行为关联做出贡献的协变量来解释。

除了将边缘水平的系数关联起来之外,我们还考虑了10个典型网络中特征选择的相似性(补充图8)。我们计算了55个子网络中每个子网络中被选择为特征的边的数量,这些边被定义为10个典型网络中特定对之间的连接。然后,我们对子网大小进行了调整,并比较了不同泄漏类型之间的等级相关性。与之前的分析类似,不进行协变量回归改变了特征在各子网络中的分布。与金标准模型相比,泄露特征选择的网络差异最大,而其他泄露特征选择的网络差异较小

图片
图片

图8 金标准与各种泄露形式之间系数的相似性

1.8 样本量的效应

之前的所有结果都研究了四个数据集的全样本量(ABCD: N = 7822-7969, HBN: N = 1024-1201, HCPD: N = 424-605, PNC: N = 1104-1126)。然而,尽管这些结果的可重复性较低,但较小的样本量在神经影像学研究中常见。因此,在不同样本量下,考虑泄漏如何影响报告的预测性能是至关重要的。对于泄露特征选择、泄露位点校正、泄露协变量回归、家族泄露和20%的受试者泄露,我们计算了Δr=rleaky-rgold,其中rleaky是泄露管道的性能,rgold是5折交叉验证的单种子的金标准无泄露管道的性能。对于泄漏类型、样本量(N = 100、200、300、400)和数据集的每种组合,分别对10个不同的重复样本进行10次5折交叉验证(总共超过20,000次5折交叉验证;总的来说,与最大的样本量(N = 400)相比,Δr在最小的样本量(N = 100)下的变异性要大得多。例如ABCD中的矩阵推理预测,Δr族泄漏量在N = 100时为−0.34 ~ 0.25,在N = 400时为−0.12 ~ 0.13。另一个例子是ABCD矩阵推理预测中的站点校正,当N = 100时Δr范围为−0.13 ~ 0.06,当N = 400时Δr范围为−0.11 ~ 0.03。虽然并不是每个数据集和表型预测在小样本量下对泄漏管道的性能有很大的变异性(如HBN年龄预测),但总体趋势表明,与大样本相比,小样本的泄漏可能更不可预测,因此更危险

然而,当对给定子样本进行多次k次分割的中位数性能时,除特征和受试者泄漏外,大多数泄漏类型的影响都降低了(补充图9)。一般来说,最佳实践是进行至少100次k次分割,但由于本研究中有许多分析和管道,我们只进行了10次迭代。例如,对于矩阵推理的ABCD预测,10次迭代的中位数导致所有形式的泄漏(N = 400)的Δr值范围略小,包括特征泄漏、泄漏位点校正、泄漏协变量回归、家族泄露,20%的个体泄露。总体上,进行多次迭代的k折交叉验证减少了但没有消除泄漏的影响。在某些情况下,泄漏仍然导致性能的巨大变化,特别是在小样本量下。

图片
图片

图9 不同泄漏类型及4种样本量(N = 100、200、300、400)的泄漏性能与金标准性能的差异。

1.9 敏感性分析

为了支持我们研究结果的稳健性,我们进行了两项主要的敏感性分析。首先,我们在另外两个模型(SVR, CPM)中分析了泄漏的影响。其次,我们使用结构连接组进行了类似的分析,以证明泄漏的影响超越功能连接。

我们重复了支持向量回归(SVR)(补充图10和12)和基于连接体的预测模型(CPM)2(补充图11和13)的分析,并发现泄漏的影响有类似的趋势。

此外,我们对来自HCPD数据集的635名参与者进行了泄漏分析,从功能连接组扩展到结构连接组。矩阵推理、注意力问题和年龄的金标准预测在HCPD结构连接组数据中表现出低到中等的表现(图10和补充图11)。最夸大性能的泄漏形式为特征泄漏和个体泄漏。与其对功能连接数据的影响相比,在这一特定情况下,泄漏协变量回归显示了较轻微的性能下降。尽管存在微小差异,但这些结果在结构连接数据中遵循了与功能连接数据相似的趋势。

图片
图片

图10 使用r评估结构连接体中矩阵推理、注意力问题和年龄预测的泄漏类型

2. 讨论

在这项工作中,我们在ABCD, HBN, HCPD和PNC数据集中证明了五种可能的泄露形式对基于连接体的预测模型的影响。在某些情况下,泄漏导致预测严重膨胀(例如,泄漏特征选择)。在其他试验中,差异很小甚至没有(例如对泄露部位的校正)。在本研究中研究的不同表型、模型和连接组中,泄露管道的总体影响显示出相似的趋势。此外,再取样至更小的样本(神经影像学文献中的典型情况)导致了泄露效应的增加。泄露从来都不是正确的做法,但量化其在神经成像中的影响仍然是重要的,以了解究竟有多少泄露会阻碍神经成像的可重复性。考虑到这项工作中发现的泄漏的可变影响,测试和训练样本的严格分割在神经影像学中特别重要,以准确估计预测模型的性能。

特征泄漏被广泛认为是一种糟糕的实践,正如预期的那样,它严重地夸大了预测性能。虽然特征泄漏在文献中很少见,但它可以显著提高模型的性能,从而阻碍再现性。例如,最近的一项工作表明,一篇备受关注的预测青少年自杀意念的文章在去除特征选择泄露后没有预测能力。据谷歌Scholar报道,该论文自2017年发表以来共被引用254次,现已被撤回。因此,有必要重新强调避免特征泄漏的重要性。虽然避免特征泄漏可能看起来很明显,但它可以以更微妙的方式发生。例如,可以在整个数据集中研究两组之间哪些网络显著不同,然后使用这些网络创建一个预测模型。值得注意的是,由于ABCD的样本量较大,特征泄漏的影响较小。换句话说,当使用数千个样本时,所选择的特征可能在不同的训练数据折叠中是稳健的。这一结果与最近的关联研究结果一致。一般来说,可以通过在公共存储库上共享代码来减少特性泄漏。尽管这需要额外的工作,但我们强烈建议作者在所有情况下共享他们的分析代码和适当的预处理数据。然后,社区可以快速、轻松地重现结果,并在代码中寻找潜在的泄漏。

同样,受试者泄露导致了膨胀效应。在fMRI、时间点或任务的多次运行的数据集中更有可能出现这种情况。例如,一项备受关注的预印本使用深度学习来预测胸片中的肺炎,并且作者没有考虑患者进行多次扫描的情况,这导致了在训练集和测试集之间的泄漏。幸运的是,一个社区成员发现了这个漏洞,并在后续版本的preprint中迅速纠正,这说明了编写详细方法和共享代码的重要性。当对每个个体使用多个扫描时,例如在收集多个任务扫描或纵向数据时,应特别注意预测。

我们通常将泄漏与膨胀的预测性能联系在一起。然而,泄漏协变量回归降低了预测性能。我们的结果证实了之前的工作,表明协变量回归必须在交叉验证循环中进行,以避免效应量的错误紧缩。有趣的是,执行协变量回归本身可能导致泄漏,这是决定是否以及如何实现协变量回归时的另一个考虑因素。

在使用大样本时,除了特征和受试者泄漏外,没有其他泄漏显著提高了预测性能。值得注意的是,漏点校正并不影响预测性能。当使用整个数据集时,家族泄漏几乎没有影响,因为参与者属于有一个以上个人的家族的百分比很小。然而,一个双胞胎子集和各种模拟表明,当数据集的多成员家族比例较大时,家族泄漏的影响更明显。大型公共数据集(如ABCD和更广泛的HCP寿命数据集)越来越多地具有参与者(即双胞胎)之间复杂的嵌套依赖性。这些因素促进了更大的样本量以获得更好的统计功效和更有代表性的样本,从而可以最小化模型偏倚。然而,考虑这些因素会迅速增加预测流程的复杂性。因此,这些结果对于更广泛的领域是令人放心的。总体而言,这可能意味着这些形式的泄露结果仍然有效,至少在这些数据集和表型中是如此。尽管,不能保证任何形式的泄漏都不会提高性能。因此,避免数据泄露仍然是保证结果有效的必要条件。

在本研究中预测性能最好的表型中,年龄受泄露影响最小。这一结果表明,泄露可能更多地影响与较弱的脑行为关联的表型。当存在较强的脑-行为关系时,模型可以捕获相关的模式而不考虑泄露。然而,当存在较弱的脑-行为关系时,该模型可能主要依赖于泄露产生的模式,从而可能导致泄露在效应量较弱的行为中产生较大的效应。换句话说,当影响非常微弱时(例如本研究中的注意力问题),泄漏似乎超过了真正的影响。由于脑-行为关联研究中的效应量往往较弱,因此对泄露的关注尤为重要。然而,值得注意的是,本研究在三种表型中检验了泄露的影响,而没有对所有效应量进行全面检验。

至关重要的是,泄漏在较小的数据集中表现出更多的可变效应。因此,对于小样本来说,泄漏的原因就更加重要了。所有研究人员都应避免泄露,但使用小临床样本或患者群体的研究人员应特别小心。在k折交叉验证的多次迭代(即不同的随机种子)中,采用模型的中位数性能缓解了膨胀。这个例子强调了执行多次(≥100次)k折交叉验证的好处。虽然k折交叉验证是神经影像学中最常见的评估形式,但训练/测试分割也并不少见。考虑到训练/测试分割通常只对一个随机种子执行,小样本大小的泄漏可能是一个更大的问题,当使用训练/测试分割。

除了对性能的影响,我们发现泄露也影响模型的解释,从而影响神经生物学的解释。毫无疑问,特征泄漏系数与金标准不同,因为泄漏特征选择依赖于一个特征子集,而金标准管道为交叉验证的每一次折叠选择不同的特征子集。否则,最显著的系数差异来自于省略协变量回归。这一结果强调,除了避免泄漏,研究人员还应考虑各种分析选择可能如何影响结果。

本研究的结果集中于神经影像,特别是功能和结构连接预测的研究。然而,这项工作的经验教训可能对任何使用科学机器学习的领域都有价值。由于我们预计在可预见的未来,泄漏将在许多领域普遍存在,量化泄漏的影响可能为已发表结果的有效性提供有价值的特定领域见解。因此,我们鼓励其他领域的研究人员利用他们的专业知识来识别可能的泄漏形式,并随后评估其影响。由于泄露的普遍性,量化影响是必要的,但研究人员应注意避免泄露。

在神经成像和其他机器学习应用中,有许多策略可以帮助防止泄露。这些策略包括仔细开发和共享代码、替代验证策略、模型信息表、对自己的结果持怀疑态度以及跨学科合作。编写和维护代码应该包含几个方面以减少泄漏的可能性,包括在编写代码之前建立一个分析计划,使用维护良好的包,以及共享代码。一个人的分析计划应该提前设定,可以是非正式的,也可以是正式的,如果合适的话,通过预先注册。当一个人尝试更多的管道,特别是如果搜索一个重要的结果(即p-hacking),泄漏更有可能发生。通过详细说明如何选择特征、训练哪些模型以及如何处理可能的协变量和嵌套结构,预定义的计划可以最大限度地降低泄漏的可能性。另一个减少泄漏可能性的建议是使用维护良好的包。例如,Scikit-learn有一个经过彻底测试的k折交叉验证包,而从头开发k折交叉验证代码可能会导致意外泄漏。在许多其他好处中,共享代码,特别是文档记录良好的代码,可以通过允许外部审查人员调查已发布的管道泄漏来减少泄漏的影响。与此相关的是,分发预处理的数据可以使结果的再现更加容易,对于审查人员或那些想要验证预测模型有效性的人来说,花费的时间也更少,尽管这并不总是可能的。

此外,大多数神经影像学论文的评估采用训练/测试分割或k折交叉验证。然而,替代的验证策略,如锁盒或外部验证,可能会减少泄漏的可能性。这两种策略都有助于保持训练数据和测试数据之间更清晰的分离,在最终评估之前,需要保留一部分数据,而外部验证包括将模型应用到不同的数据集。另一种降低泄漏发生率的策略是使用模型信息表,例如Kapoor和Narayanan17提出的模型信息表。模型信息表允许作者、审稿人和公众对工作进行反思,并识别可能的泄漏。然而,当数据无法共享时,可能很难验证模型信息表的准确性17。这一限制对于神经成像数据集尤其明显,因为这通常需要应用程序访问数据。因此,我们也建议对一个人的结果持健康的怀疑态度。例如,如果机器学习管道产生了令人惊讶的结果,那么就应该通过要求合作者查看自己的代码或重复对合成数据的分析来仔细检查代码。最后,跨学科合作,将领域和机器学习专家纳入其中,将有助于防止泄漏17。领域专家可以带来关于数据集细微差别的知识(例如神经影像数据集中家族结构的发生率)。相比之下,机器学习专家可以帮助领域专家训练模型以避免泄漏。

虽然本研究研究了几个数据集、模式、表型和模型,但仍然存在一些局限性。在这项工作的许多情况下,泄漏对预测结果几乎没有影响,但这一发现并不意味着泄漏在任何情况下都是可以接受的。本研究的另一个局限性是不可能涵盖所有数据集和表型的所有泄露形式。其他可能的泄漏形式,如通过超参数选择的泄漏49,在本研究中没有考虑,详细信息见“方法”部分。此外,在这项工作中,我们在经过良好协调的数据集中研究了儿童、青少年和年轻成人队列,但人群和数据集质量的差异可能会改变泄漏的影响。例如,我们发现在双生子研究中,家族外漏的影响更大。再如,在部位校正的情况下,如果患者组在B点扫描,健康对照组在B点扫描,那么部位泄露很可能会产生较大的影响。其他方法可能更适用于考虑预测设置中可能的协变量或研究中心差异,例如将神经影像数据模型与仅使用协变量或leave-one- out prediction的模型进行比较。

尽管如此,我们仍然在分析中纳入了协变量回归和位点校正,因为它们在该领域很常见,并且可能仍然非常适合使用预测来解释脑行为关系的普遍适用性。此外,不同数据集之间的扫描长度差异可能导致不同数据集之间的性能差异。但不应影响本文关于机器学习模型中泄漏的主要结论。此外,我们使用了功能连接脑表型研究中最常见的模型类型。然而,像神经网络这样的复杂模型可能更容易受到泄漏的影响,因为它们有记忆数据的能力。与此相关,还有许多其他的评价指标,如均方误差和平均绝对误差;我们主要关注r,其次关注q2,因为r是神经影像学特征预测研究中最常见的性能指标。

另一个限制是泄漏并不总是像本文中那样定义明确。一些例子是普遍的泄漏,如忽略家族结构,意外复制数据,在组合训练和测试数据中选择特征。在其他情况下,训练和测试数据是否独立可能取决于目标。例如,人们可能希望开发一个模型,将其应用于来自新地点的数据,在这种情况下,将需要留下一个地点的预测。在这里,如果训练模型时包括来自测试地点的数据,就会出现泄漏。然而,其他应用,如本文中介绍的那些,可能不需要将数据按地点分开,而可以采用地点校正方法。类似地,如果希望证明一个模型可以泛化到各个诊断组,则应该在一个组上建立模型,并在另一个组上进行测试。依赖于应用的泄漏特性突出了在避免泄漏时注意细节和经过深思熟虑的实验的重要性。

对机器学习的再现性的担忧可以部分归因于泄漏。正如预期的那样,特征和受试者泄漏夸大了预测性能。积极的是,许多形式的泄露没有表现出膨胀的结果。此外,更大的样本和运行多个列车和测试分段缓解了膨胀的结果。由于泄漏的影响有很大的差异,而且事先并不知道,因此最好的做法仍然是保持警惕,避免数据泄露。

3. 关键方法

对于主要分析,我们使用5折交叉验证训练了岭回归模型。对于HBN、HCPD和PNC,采用5个嵌套折进行超参数选择,而在ABCD中仅采用2个嵌套折进行超参数选择,以减少计算时间。在折叠内,选择与表型变量最显著相关的前5%特征。进一步,我们对L2正则化参数α进行网格搜索,所选模型为嵌套折痕中Pearson相关值r最高的模型。对于我们的基线金标准模型(图2-5:标记为金标准),在适用的情况下,根据家族结构对数据进行了分割(仅ABCD和HCPD),这样一个家族的所有成员都被纳入同一检验分割中。此外,我们进行了交叉验证协变量回归,在交叉验证方案中,我们从功能连接数据中回归了几个协变量。首先从训练数据中回归协变量,然后应用这些参数从测试数据中回归协变量。协变量包括平均头部活动度(FD)、性别和年龄,但在预测年龄的模型中,年龄未从数据中回归。此外,在适用的情况下(ABCD、HBN和HCPD),使用ComBat在交叉验证方案中校正了位点差异。ComBat与协变量回归分开进行,因为设计ComBat时考虑的是批量效应,而不是连续变量。除了基线金标准模型之外,我们还评估了多种形式的泄漏,如下面的部分所述(也见图1)。

参考文献:Data leakage inflates prediction performance in connectome-based machine learning models.

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档