在心理状态解码中,研究人员旨在确定可以从大脑区域(或网络)的活动模式中可靠地识别的心理状态(例如,体验快乐或恐惧)的集合。深度学习(DL)模型对于心理状态解码来说是非常有希望的,因为它们在学习复杂数据的多功能表征方面具有无可比拟的能力。然而,它们在心理状态解码中的广泛应用受到了阻碍,因为它们缺乏可解释性,难以将其应用于小数据集,也难以确保其可重复性和稳健性。我们建议通过利用可解释人工智能(XAI)和迁移学习的最新进展来应对这些挑战,并就如何提高心理状态解码中DL模型的可重复性和稳健性提供建议。
深度学习的前景
在过去的十年里,深度学习(DL)模型通过其学习复杂数据的高度通用表示的能力,已经彻底改变了许多研究和工业领域。深度学习模型的一个决定性特征是,它们依次将许多简单但非线性的变换堆叠应用于其输入数据,从而使它们能够获得一个越来越抽象的数据视图。在每一层的转换中,数据的新表征都是利用前几层的表征建立的。由此产生的数据高层视图使DL模型能够捕捉到复杂的非线性,将目标信号与数据中高度可变的模式联系起来(例如,在转录录音时),并有效地过滤掉与当前学习任务无关的数据方面。DL模型经验上成功的一个关键驱动力是它们能够从足够大的数据集中自主地学习这些不同层次的抽象,而不需要大量的数据预处理或事先了解输入数据和目标信号之间的映射。
这种经验上的成功最近引发了人们对DL模型在神经影像领域的应用的兴趣,重点是精神状态解码。研究人员在此旨在通过训练模型来理解一组心理状态(例如,愤怒或悲伤的体验)和潜在的大脑活动之间的映射,以便从测量的大脑活动中识别这些状态。乍一看,DL模型似乎非常适合这些类型的分析,因为心理状态和大脑活动之间的映射往往是先验未知的,在个人内部和个人之间可能是高度可变的,并且受空间和时间非线性的影响。
然而,将DL模型应用于心理状态解码分析也给那些有兴趣将这两个领域的方法结合起来的研究人员带来了挑战,即它们普遍缺乏可解释性,对大型训练数据集的总体需求,以及难以确保DL建模结果的可重复性和稳健性。我们概述了这些挑战,并根据功能神经影像学和DL研究的相关经验工作和方法学进展提出了一套解决方案。
打开黑匣子
将DL模型应用于功能神经影像数据的一个关键挑战是DL模型的黑箱特性,其高度非线性的特性深深地掩盖了输入数据和其解码决策之间的关系。因此,即使DL模型准确地从功能神经影像数据中解码出一组心理状态,也不清楚数据的哪些特定特征(或其组合)支持这种解码。为了应对这一挑战,功能神经影像学研究人员已经开始转向对可解释人工智能(XAI)的研究,在那里,正在开发的技术旨在使DL模型的行为对人类观察者来说是可以理解的。
该领域的一个研究方向是通过将DL模型的预测与输入数据的特征联系起来进行解释,从而使模型可以被人类观察者解释。虽然有大量的此类解释方法,但我们重点关注那些通过将每个输入特征与模型预测的相关性归属来解释模型预测的方法,因为这些方法在心理状态解码中得到了广泛的应用。我们在方框1中对这种类型的XAI的代表性方法进行了概述。其中,敏感性分析、后向分解和基于参考的归因目前在神经影像学文献中最为突出。敏感性分析根据一个模型的预测对每个特征值的敏感程度,将相关性归于每个输入特征。相比之下,后向分解法是通过依次将模型的预测通过模型分解为低层模型单元对预测的贡献,直到达到输入空间,并且可以为每个输入特征定义贡献(即相关性),从而归属相关性。最后,基于参考的归因方法通过对比一个模型对感兴趣的输入的反应和它对一些参考输入(例如,一个中性输入)的反应来归因于相关性。
方框1 代表性的XAI归因方法
图一 代表性的XAI归因方法
乍一看,不同归因方法的解释对人类观察者来说是很难辨别的,这使得比较其解释的质量具有挑战性。为了应对这一挑战,研究人员已经开始开发方法来量化这种解释的质量。一个突出的方法是测试一个解释的忠实度。如果一个解释准确地捕捉了一个模型的决策过程,从而确定了输入的那些与模型预测最相关的特征,那么这个解释通常可以被视为是忠实的。因此,从输入中去除这些特征(例如,在闭塞分析中)应该导致模型预测性能的有意义的下降。
通过使用这个测试,计算机视觉的研究人员已经比较了由敏感性分析和后向分解产生的解释的忠实度。这项工作表明,后向分解通常在识别输入的那些与模型预测最相关的特征方面表现更好。直观地说,这是有道理的,因为后向分解试图直接量化每个输入特征对特定模型预测的贡献。相比之下,敏感性分析并不评估预测本身,而是评估其局部斜率,从而确定使模型对其预测更确定或更不确定的特征,而不管其对预测的实际贡献。
最近在功能神经影像学方面的工作对敏感性分析、后向分解和基于参考的归因进行了类似的比较,在精神状态解码分析中使用功能磁共振成像(fMRI)数据。与计算机视觉中的发现类似,这项工作表明,来自后向分解和基于参考的归因的解释通常比敏感性分析的解释更忠实。它还表明,与后向分解或基于参考的归因相比,敏感性分析的解释通常与fMRI数据的标准通用线性模型分析的结果更一致。为了理解这一发现,重要的是要记住,这三种类型的XAI技术试图解释大脑活动和模型所学的心理状态之间的映射。由于功能性神经影像数据通常具有很强的空间相关性,在许多情况下,DL模型可以通过只关注那些活动与心理状态相关(从而预测)的体素的子集来准确解码心理状态。在这些情况下,具有完美忠实度的XAI方法将产生解释,这些解释并不识别输入的所有体素,这些体素的活动实际上与心理状态有关,而只是那些模型用来作为其解码决定的证据的活动。相比之下,敏感性分析从每个输入体素对解码决策的具体贡献退后一步,而是询问模型的解码决策对一个体素的价值的反应有多敏感,从而确定一个更广泛的体素集,模型在形成其解码决策时考虑其活动。
功能性神经影像学研究者也使用闭塞分析来分析精神状态解码模型(“虚拟病变分析”)。然而,这些应用大多局限于线性模型和测试特定的体素(或脑区),这些体素在线性模型中获得较大的权重,实际上是准确解码所必需的。对于功能性神经影像数据,闭塞分析通常需要对输入的哪些特征(或脑区)进行明确的先验假设(例如,基于其他研究),因为随机剔除个别特征值,否则将无法解释这些数据固有的强大空间相关结构。为了规避这些问题,神经影像学研究者可以在功能独立的大脑网络水平上进行闭塞分析,如大脑分割,而不是在单个体素值的水平上。
因此,综合来看,我们对精神状态解码中的XAI技术提出了双重建议(方框2):如果研究人员对识别输入的那些体素的活动与DL模型的解码决策最相关感兴趣,我们建议应用后向分解或基于参考的归因,而当研究人员对理解基础大脑活动与研究的精神状态之间的关联更感兴趣时,我们建议进行敏感性分析。如果研究人员对功能独立的大脑网络的活动与解码的心理状态有关,而不是与单个体素的活动有关,那么闭塞分析也是这些方法的一个可行的选择。
方框2 推荐用于精神状态解码的XAI方法
重要的是,尽管XAI技术代表了DL模型在心理状态解码中应用的基石,但我们主张在解释其解释时要谨慎,因为DL模型所学习的大脑活动和心理状态之间的映射可能是高度复杂和反直觉的。因此,我们敦促神经影像学研究人员始终在相同数据的标准分析结果(例如,用线性模型)和相关的经验发现(例如,来自NeuroSynth)的背景下解释XAI分析的结果。
利用公共数据
功能神经影像研究中DL模型的第二个主要挑战是传统功能神经影像数据集的高维度和低样本量。一个典型的fMRI数据集包含几百个卷,每个卷有几十个到几百个个体,每个卷包含几十万个体素(即维度)。相比之下,目前最先进的DL模型可以很容易地包含数亿个参数,而最近的语言模型甚至将这一界限进一步推至数十亿个参数。因此,在大多数情况下,DL模型包含的可训练参数比其训练数据中的样本多得多。虽然这种巨大的超参数化是DL模型经验性成功的关键因素--使它们能够为大多数标准学习任务找到近乎完美的解决方案,并在数据集之间进行良好的泛化,但它也是它们在数据匮乏领域应用的最大挑战之一,因为DL模型的性能在很大程度上取决于可用的训练数据量。
为了应对这一挑战,人们开发了各种方法来提高DL模型在较小数据集中的性能。其中一个突出的方法是迁移学习,该方法在经验上取得了很大的成功。迁移学习的目的是利用从一个数据集(即源域)学到的关于输入数据和目标变量之间的映射的知识,来改善在另一个相关领域(即目标领域)的数据集中对类似映射的学习。知识通常以模型在源域学到的参数的形式转移,然后在目标域开始学习时用于初始化模型(或模型的一部分)。迁移学习在计算机视觉和自然语言处理领域特别成功,这些领域存在大量公开可用的数据集。DL模型首先在这些大型数据集上进行预训练(例如,对图像中的物体进行分类或预测句子中的下一个词),随后在相关目标领域的小型数据集上进行微调(例如,对医学成像中的脑肿瘤进行分类或分析文本中的情感)。在计算上,预训练可以通过将模型参数置于损失函数的局部最小值附近和作为正则器来帮助后续优化。预训练的模型通常表现出更快的学习速度和更高的预测精度,而且与从头开始训练的模型相比,需要更少的训练数据。然而,预训练的好处会随着目标数据集大小的增加而减少,并且随着源和目标学习任务和/或领域之间的整体差异的增加而减少。
近年来,功能神经影像研究经历了由大型神经影像计划和个人研究者提供的公共数据集的类似增长。此外,在功能神经影像数据的数据结构和预处理的标准化方面也做出了一些努力。这些发展为功能神经影像学领域进入大数据时代铺平了道路,使迁移学习成为可能。
最近的经验证据表明,个人、实验任务和数据集之间的迁移学习是可能的,而且预训练通常会提高传统fMRI数据集中DL模型的解码性能。大多数工作在预训练期间利用了传统的监督学习技术,为数据中的每个样本分配一个心理状态,并训练一个解码模型来从数据中识别这些状态。虽然这是一个在单个数据集内进行解码分析的富有成效的方法,但它往往很难扩展到许多数据集的分析。尽管有一些尝试,功能神经影像学研究还没有广泛采用心理状态的标准化定义。如果没有这种类型的标准化,往往不清楚来自两个独立实验室的两个实验是否引起了相同或不同的心理状态集。想象一下下面的实验:在第一个实验中,参与者大声朗读一连串的句子,然后被要求重复每个句子的最后一个词。在第二个实验中,参与者首先听到一连串的字母和数字,然后被要求分别按字母和数字的顺序报告这些字母和数字(字母-数字排序任务)。虽然这两个实验都将相关的心理状态标记为“工作记忆”,但人们可以认为,这些实验实际上引起了两种不同的心理状态,因为一个实验只需要暂时储存信息,而另一个实验则需要主动操作这些信息。
为了能够成功地跨数据集学习这些类型的不精确的心理状态标签,我们推荐三种学习方法(方框3)。首先,我们可以将每个数据集视为一个单独的学习任务,并训练一个单一的模型来共同解决所有的任务。最近的经验性工作已经证明了这种多任务学习方法在心理状态解码方面的通用性,即训练一个单一的模型来学习许多数据集的共同数据表示,然后使用特定数据集的解码模型来识别所学的共同表示的心理状态。
方框3许多神经影像数据集的预训练方法
图一 在多个神经影像数据集上预训练DL模型的推荐方法
第二种方法来自于弱监督学习,在这种情况下,已经开发了一些技术,可以在有噪声或不完整的数据标签下进行模型训练。数据编程是一种弱监督学习技术,对于训练具有不精确精神状态标签的神经影像数据集的DL模型特别有希望(方框3)。简单的函数被用来为训练数据生成新的标签。这些函数通过实施主题专家的简单领域启发式方法(例如,如果YouTube文本评论包含一个URL或"检查这个 "字样,则将其标记为垃圾邮件),自动标记数据的子集。然后,生成的标签被用来以监督的方式训练模型。最近的经验工作表明,通过设计从附带的医疗文本报告中提取标签的标签功能,这种弱监督可以成功地用于无标签的医疗成像数据(例如,放射摄影或计算机断层扫描数据)的分类。类似的方法可能是富有成效的,通过对随附的出版物文本应用自动标签功能(例如,如果出版物文本在方法部分包含'查看'或'观看'字样,则将fMRI扫描标记为'视觉感知'),从而生成标准化的精神状态标签(例如,根据认知图谱[83])。
然而,即使是心理状态的标准化标签也可能对大脑活动的基本分布不准确。想象一下,在一个简单的实验中,个人观看人脸和房屋的图像。一个解码模型可能在识别是否看到人脸或房子方面表现良好,但却错过了与刺激物的更精细特征相关的大脑活动的其他重要特征,如个人的年龄和性别。自监督(或无监督)学习技术在此提供了一种不考虑数据的任何标记的学习手段,而是使模型能够自主地学习数据的有意义的表征(方框3)。自我监督学习的两个突出例子是对比学习和生成学习,这两个例子最近在经验上取得了很大的成功。两者都是通过训练编码器模型来学习数据的表征,将数据投射到一个更高层次的表征中。在对比学习中,编码器模型是通过使用额外的判别器模型来训练的,其目的是根据一对数据样本在编码器模型中的投影来确定它们的相似性。相比之下,生成学习通过使用额外的解码器模型来训练编码器模型,解码器模型试图从编码器模型的高层次表示中重建输入(或输入的一部分)(自动编码器是生成学习模型的一个突出例子)。研究人员已经证明,自我监督学习技术可以成功地用于在许多不同的fMRI数据集上预训练DL模型,导致模型在精神状态解码分析中对其他fMRI数据集具有良好的概括性。
确保可重复性
最近功能神经影像学的工作暴露了其标准分析工作流程的高度灵活性,导致了结果和科学结论的巨大差异。鉴于这些问题,已经做出了一些努力来提高功能神经影像分析的标准化和可重复性。目前,DL研究也面临着类似的问题,因为模型的表现往往难以重现。因此,对应用DL模型进行心理状态解码分析感兴趣的功能神经影像学研究人员,在这两个领域的交叉点上,面临着工作可重复性的额外挑战。
DL研究中方法学进展的一个关键驱动力是在基准中寻找最先进的性能--也就是说,一种新的方法学是否在预定的测试数据集中优于现有方法学。尽管这种方法帮助DL领域快速发展并迅速开发出准确的模型,但它也建立了一种研究文化,即经常为了最大的性能指标而牺牲科学的严谨性,这与无效假设检验中的“P-hacking”现象并不一样。
预定的测试数据集的一个核心论点是,所有的模型都应该在相同的基础上进行比较(即相同的训练和测试样本集)。然而,这些类型的点估计往往不足以确定一个模型在新数据中是否真的优于其他模型。例如,最近的经验工作表明,DL模型的收敛,以及它们在测试数据集中的最终表现,取决于训练的许多非确定性因素,如随机权重初始化和随机洗牌或训练期间的数据增强,以及超参数的具体选择,如模型层和优化算法的规格。在某些情况下,研究人员可以通过投入大量的计算预算,为特定的测试数据集调整这些类型的因素,从而实现最先进的性能。因此,许多报告的DL基准是建立在大量的计算预算之上的,并且通常很难被其他研究人员复制。最近的经验发现进一步表明,在这些基准中的几个上进行的比较缺乏必要的统计能力,无法准确地确定报告的模型性能的改进,这个问题在神经影像学研究中也很明显。
由于这些原因,研究人员已经开始倡导对DL模型的训练历史进行更全面和标准化的报告,更广泛的评估程序,以及提高DL研究的科学严谨性。为了避免心理状态解码中类似的陷阱,我们从最近的DL研究中得出了一套建议,旨在提高DL模型性能的可重复性(方框4)。
方框4 关于提高心理状态解码中DL模型的可重复性和稳健性的建议
大多数DL模型训练管道过于复杂,无法对训练的非决定性因素的所有可能联盟进行全面评估。然而,只评估这些选择的具体实例(例如,通过固定随机种子)并不能对新数据下模型的预期性能给出可靠的估计。相反,与这些因素相关的模型性能的差异可以通过尽可能多的随机化来更好地把握--例如通过为多次训练的每一次选择不同的随机种子。
此外,在评估模型性能时,需要将数据随机拆分为训练、验证和测试数据集,以说明与不同数据拆分相关的模型性能差异(例如,通过使用交叉验证)。一个单一的、预定义的测试数据集所包含的关于整个基础数据分布的信息是有限的,因此它在提供一个模型的预期性能的准确估计方面的能力是有限的。然而,最近的工作也表明,对小型功能神经影像数据集的交叉验证分析往往低估了对模型预期性能的估计误差。因此,当使用小数据集时,应谨慎对待交叉验证分析。
此外,为了确保所选择的统计比较方法和测试数据集规模的组合能够提供足够的统计能力来准确判断所研究的模型性能差异,可以用简单的模拟研究来首先确定和估计统计测试程序所需的量(例如,成对数据的McNemar检验需要模型做出正确预测的概率以及它们的一致率),随后用这些估计来模拟不同测试数据集规模的模型比较。除了确保所选择的性能评估程序不缺乏统计能力外,最近在神经影像学方面的工作还表明,应控制多个连续的模型比较,因为在同一数据集上进行多个连续的假设测试(如性能比较)会使假阳性率膨胀。
提高鲁棒性
除了所提出的可重复性挑战,最近大量的经验性工作表明,高度调整的DL模型往往缺乏对数据轻微分布变化或损坏的基本鲁棒性,因此,其输入的微小变化,往往不能被人类观察者识别,可以对模型性能产生巨大的影响。在功能神经影像数据上训练的DL模型似乎特别容易受到这些类型的鲁棒性问题的影响,因为这些数据固有的许多系统性噪声源,可能是特定于成像采集点和被研究个体的,以及实验研究和个体之间的大脑活动和精神状态的关联的普遍可变性。由于这个原因,在大型同质数据集上训练模型(例如,由在同一成像地点获得的、执行相同实验任务的同质个体群体的数据组成),可能导致模型不能很好地推广到其他成像地点或人群样本的数据。
为了加强对数据轻微分布变化或损坏的鲁棒性,DL研究人员通常建议在训练期间对数据进行随机增强,如随机裁剪、旋转或翻转图像,或遮挡部分输入。然而,最近在功能神经影像学方面的经验工作表明,许多这些标准的增强技术并不能很好地推广到功能神经影像学数据。相反,神经影像学研究人员主张使用更强大的数据合成策略,例如,使用经过训练的生成模型来很好地捕捉训练数据集的特征,然后可以用来合成人工训练数据。
DL模型的表现在数据集的不同的、通常未被识别的亚群中也常常是高度可变的(这种现象被称为“隐藏分层”)。一个训练有素的DL模型,从大脑功能活动中解码自然图像,可能平均表现良好,但始终对特定的图像子类别分类错误。为了识别隐藏的分层,我们通常建议采用人工和自动评估的方法,例如通过检查错误分类的数据实例,或者将自动聚类算法应用于训练过的DL模型的隐藏表征,以识别数据中可能的亚群。同样,在大型数据集上训练的DL模型经常学习偏向于代表性过强的亚群(例如,基于个体的性别)。为了识别心理状态解码中的这些类型的偏见,我们建议评估训练过的模型在数据的各个子群体上的表现。一旦检测到隐藏的分层或偏见,可以使用专门的学习技术来改善模型在特定子群体上的表现,如重要性加权或正则化。
最后,DL模型容易学习虚假的捷径,使其在特定的训练数据集中表现良好,但在其他情况下却不能很好地推广。例如,研究人员发现,用医学影像数据训练的肺炎检测模型,除了学习医院的肺炎患病率外,还可以通过学习识别医学影像中特定医院的伪影来学习,从而获得良好的平均表现。同样,根据功能神经影像数据训练的生物标志物模型可以通过他们普遍增加的头部运动来学习识别病人。为了检测这些类型的混淆,我们建议神经影像学研究人员评估精神状态解码模型在分布外数据上的表现,并且只要分布外错误率相对于分布内错误较高,研究人员就会检查数据实例(例如,应用XAI技术;方框1)。如果在一个模型的解码决策中发现了混杂物,可以利用经典的交叉验证程序的改编,专门针对功能神经影像数据,以获得解码性能的无偏估计。
结语
DL模型在研究和工业领域经历了巨大的成功,并对社会产生了重大影响。这种成功引发了人们对其应用于心理状态解码领域的兴趣,在该领域,研究人员旨在描述与不同脑区的活动模式相关的心理状态集合,从而可以从这些区域的活动中准确解码(即识别)。由于DL模型在学习复杂数据的多功能表征方面具有无可比拟的能力,因此有希望彻底改变精神状态解码。然而,在精神状态解码中充分利用DL模型的潜力目前受到三个主要挑战的阻碍,这些挑战来自于DL模型普遍缺乏可解释性,以及将它们应用于小数据集并确保其可重复性和稳健性的困难。
我们对这三个挑战进行了详细的讨论,并根据功能神经影像学和DL研究的最新进展提出了一套解决方案。总之,我们建议研究人员利用XAI技术来识别DL模型所学到的心理状态和大脑活动之间的映射(方框1和2),通过在公共神经影像数据上预训练这些模型来提高DL模型在传统神经影像数据集中的表现(方框3),并遵循具体建议来提高DL模型在心理状态解码中表现的可重复性和稳健性(方框4)。我们希望研究人员能从我们的讨论中得到启发,并探索在确定DL模型是否能实现其对心理状态解码的承诺的道路上仍然存在的许多开放的研究问题(见悬而未决的问题)。
悬而未决的问题
DL模型在输入数据和目标信号之间学习到的映射可能是非常复杂和反直觉的。鉴于这种复杂性,目前的XAI技术(通常简化模型的决策过程以实现可解释性)在提供对大脑活动和心理状态之间的模型学习映射的洞察力方面有哪些局限性?
数据编程能否用于为公共神经影像数据集有效地生成精神状态的标准化标签(例如,根据认知图谱),如果可以,用这些生成的标签训练的模型与用自我监督训练的模型相比如何?
哪些类型的简单数据增强技术(类似于添加噪音或遮挡部分输入)可以帮助提高用功能神经影像数据训练的DL模型的稳健性?
功能性神经影像学研究人员如何能够方便地访问(和使用)他们预先训练好的DL模型(例如,使其他人能够轻松地将这些模型适应他们收集的数据集)?
在采取适当措施确保可重复性和稳健性的情况下,性能基准能否成为功能神经影像研究的有用工具,以加速开发准确和通用的DL模型?
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。