前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Biological Psychiatry综述:人脑成像转录组学的最佳实践

Biological Psychiatry综述:人脑成像转录组学的最佳实践

原创
作者头像
悦影科技
发布2023-12-08 10:30:27
1800
发布2023-12-08 10:30:27
举报

现代全脑转录图谱为研究脑组织的分子相关性提供了前所未有的机会,可以使用无创神经成像进行量化。然而,将神经影像学数据与转录组测量相结合并不是直截了当的,需要仔细考虑才能做出有效的推断。在本文中,我们回顾了最近的研究工作,探讨了不同的方法选择如何影响成像转录组学分析的三个主要阶段,包括1)转录图谱数据的处理;2)将转录测量与独立衍生的神经影像学表型相关联;3)通过基因富集分析评估鉴定的关联的功能意义。我们的目标是为这个快速发展的领域促进标准化和可复制方法的发展。我们确定了方法可变性的来源,可能影响结果的关键选择,以及减轻假阳性和/或虚假结果的考虑因素。最后,我们提供了在所有3个分析阶段实现当前最佳实践过程的免费可用的开源工具箱的概述。

精神疾病通常以大脑连通性障碍为特征。磁共振成像为研究人员提供了一种强大的工具,可以在一系列不同的疾病中绘制大脑连接障碍的各个方面,但神经成像本身并不能揭示这些破坏的潜在分子机制。一个卓有成效的方法是研究神经成像衍生的连接组表型的遗传基础。在大脑发育过程中,分子梯度在引导轴突到达目标方面起着关键作用,而且大脑结构和功能的许多方面,包括大脑连接,都表现出一定程度的遗传性。因此,表征与精神疾病有关的连接组表型的遗传驱动因素可能为了解支撑大脑组织的复杂分子机制提供了一个窗口。

在这种背景下,成像遗传学的主要方法涉及通过遗传关联研究将一些连接组或其他表型的表型变异性与DNA的结构变异联系起来。虽然这种方法可以用于识别与表型相关的单核苷酸多态性,但不能保证相关变异在驱动表型变异中起因果作用,因为它可能与实际的因果变异处于连锁不平衡状态。在许多情况下,如果没有进一步的研究,也很难知道变异对基因表达的分子效应。虽然直接分析转录活性的研究可能会揭示与病理生理学更接近的分子过程,但它们历来只应用于相对较小的组织斑块,因此很难将此类测量与神经成像表型联系起来。

在过去的十年中,高通量组织处理和分析取得了重大进展,使得生成解剖学上全面的脑转录组图谱成为可能。这些图谱包含了在整个大脑中数千个组织样本中量化的几乎整个基因组的转录活性测量,为识别与神经成像表型相关的空间表达模式基因开辟了新的可能性,从而引发了成像转录组学的新兴领域。这种分析已经确定了多种大脑结构和功能特性的转录相关性,包括:区域间连通性;经典的感觉-联系皮层层次;规范大规模网络及其拓扑和时间性质;以及内在动力的空间梯度。成像转录组学还发现了多种疾病中脑连接障碍的转录相关性,并揭示了在疾病和发育和衰老过程中观察到的脑变化的假定细胞相关性。此外,转录数据为脑功能的动态模型提供了信息,并提高了我们对神经退行性疾病传播的理解。

尽管成像转录组学前景广阔且应用迅速,但神经成像与全脑转录组图谱数据的整合依赖于大量的数据处理和分析选择,这些选择可能会影响最终结果。不同的研究人员历来使用他们自己定制的分析管道,这使得很难确定这些选择对报告结果的影响。因此,开发最佳实践工作流对于该领域在有效和可复制的情况下取得进展至关重要道路。在这篇综述中,我们研究了最近的工作,探索各种处理选择的影响,并试图开发易于使用的管道,实现最佳的处理选择,从而建立成像转录组学的最佳实践工作流程。我们概述了这些分析中的一些关键步骤,强调了需要仔细考虑的问题,并在提出这些问题的地方推荐了最佳选择。我们将重点讨论成像转录组学分析的三个关键阶段:1)处理转录图谱数据;2)将表达量与神经影像学表型联系起来;3)评估基因的特异性和富集程度。我们希望促进该领域标准化处理和分析方法的发展,从而促进研究之间的比较,促进有效和准确的推断。

1. 阶段1:处理转录图谱数据

成像转录组学研究依赖于全脑转录图谱,量化大脑中多个位置数千个基因的表达。测量转录活性的方法取决于一系列因素,包括物种、所需的空间分辨率和组织可用性。人脑组织的有限可用性意味着,与单细胞RNA测序或原位杂交等其他具有更高空间分辨率的方法相比,大块组织微阵列仍然是高通量空间转录组学最容易获得的方法。Allen人脑图谱(AHBA)提供了一个解剖学上全面的人脑转录图谱,量化了来自6个死后大脑的3702个解剖位置的20,000多个基因的表达。由于供体大脑使用t1加权磁共振成像进行扫描,并且扫描被归一化为标准化空间,因此可以直接比较基因表达的空间模式和神经成像数据。然而,由于AHBA中的解剖位置是使用空间分布的小块组织进行采样的,因此实现这种空间映射的最简单方法是对两者应用一些区域分割。通过这种方式,在给定大脑区域内的基因表达的汇总测量可以与在同一区域量化的成像测量相关联。

类AHBA数据的主要任务是构建一个NXG矩阵,其中N是脑区分割的数量,G是被分析基因的数量。图1概述了获得该区域基因表达矩阵的典型工作流程的关键步骤。每一步都需要研究者做出可能影响最终结果的选择。这些不同选择的影响将在中详细讨论。这里我们总结了每个步骤的关键方面和建议。

图片
图片

图1 示意图表示艾伦人脑图谱的处理步骤,将数据聚合到一个区域基因矩阵中,以供进一步分析。

1.1 步骤1:验证探针到基因的注释

微阵列数据使用与包含单个基因的DNA的独特部分相对应的探针序列来量化基因表达。探针对基因的分配是使用不断更新的可用测序数据库进行的。因此,必须使用最新、最准确的探针-基因定位来确保测量的有效性。

1.2 步骤2:过滤探针

微阵列实验容易受到背景噪声的影响,部分原因是由于非特异性杂交。因此,有必要去除表达水平不超过背景的噪声探针,以提高微阵列测量的有效性。根据我们的分析,保留至少50%的样品中表达水平超过背景水平的探针,在保持所有可用探针约70%的同时,为降低噪声提供了适当的平衡,从而确保了高解剖覆盖率。

1.3 步骤3:选择代表性探针

在原始AHBA数据中,超过90%的基因有多个可用的探针,并不是所有的探针都显示一致的表达模式。应该选择一个具有代表性的探针或跨多个探针的汇总测量,以降低数据复杂性并帮助解释。文献中已经实施了几种方法。我们建议根据在2个(6个)供体大脑中收集的RNA测序测量值的相关性来选择探针,因为它提供了最接近基础真实值的测量值。如果这是不可能的,我们建议使用具有最高差异稳定性的探针,它可以测量基因在供体大脑中的表达谱的一致性。

1.4 步骤4:将组织样本分配到分块状的大脑区域

每个组织样本都具有立体定向坐标和解剖标签的特征,可用于将相应的表达映射到所选脑分块中的一个区域。我们建议将组织样本根据其广泛的解剖位置(皮层/皮层下)分别映射到区域,并将样本分配到分块中最近的区域(而不是该区域的质心),同时从原始样本位置应用2毫米的距离阈值到分块,以避免不准确的样本映射位于离该区域太远。

1.5 步骤5:规范表达测量

由于AHBA数据是从6个供体大脑中收集的,任何结合大脑样本以获得解剖学全面图谱的分析都必须考虑供体大脑表达的个体差异。AHBA团队在数据发布前执行的归一化程序消除了批效应和人为的个体间差异,但仍留下了大量残留的个体间差异。在每个供体大脑内跨区域执行额外的z评分或缩放稳健的s形归一化步骤,可用于消除这种残余变异性并将离群值的影响降至最低。

1.6 步骤6:选择在供体大脑中具有一致表达模式的基因

在AHBA中超过20,000个基因中,只有一小部分在不同的供体大脑中表现出一致的区域差异,使用差异稳定性测量进行量化。识别一致表达的基因,在整个大脑中显示可重复的变异或已知的大脑表达的基因,可以为研究与神经成像表型的关系提供更有针对性的方法。

在刚刚列出的6个步骤中,每一个步骤都可以做出大量的选择,结果是研究者可以选择的可能管道的组合爆炸。最近的一项研究广泛探索了刚刚描述的工作流中17个决策点的影响,产生了746,496个不同的处理管道(见图2)。作者使用这种全面的分析来确定影响最终结果的关键处理选择,并使用基于3种常用分析类型的3个结果指标进行量化:基因共表达(基因间跨区域的相似性)、区域基因表达(特定基因或基因集的空间表达模式)和相关基因表达(基因间区域表达谱的相似性);所有测量将在下文详细讨论;另见图3)。他们发现,涉及基因规范化(步骤5)的数据处理选择影响最大(图2),其次是与组织样本映射到大脑区域(步骤4)相关的选择。影响最小的选择与探针选择(步骤3)有关(图2A)。通过将分析结果与先前的结果相结合,作者开发了一个推荐的数据处理工作流,该工作流在开源abagen工具箱中实现(69)。abagen工具箱还生成所选处理选项的标准化报告,以提高出版物中报告的透明度。

图片
图片

图2 数据处理选项的影响

2. 第二阶段:相关表达和神经影像学测量

将转录数据转换为区域基因表达矩阵后,下一步涉及将这些测量与某些神经成像表型相关联。在这种情况下,表达数据通常使用三种主要方法之一进行总结 (图3)。第一种是基因共表达分析,包括分析基因对表达模式之间的空间相关性(跨大脑区域)。对于所有对基因,结果可以表示为(对称的)逐基因矩阵,以分析基因表达相似性的模式(图3A)。这个矩阵也可以用一些汇总值(例如,矩阵的特征向量或其子成分,有时称为特征基因)来总结,产生一个高度解释性的成分,作为一个空间地图,可以链接到成像数据第二种类型的分析侧重于区域基因表达,其中选择的基因或基因组的空间相关性是根据在每个大脑区域定义的神经成像测量来评估的。同样的原理也适用于多变量分析,如使用偏最小二乘法的分析,它确定了具有最大协方差的基因和成像测量的加权组合(图3B)。

第三类分析检查CGE,其中计算所有脑区对之间的相关性,量化其基因表达谱的相似性。结果可以表示为一个(对称的)逐区域矩阵,并直接与其他类型的数据在区域对的水平上测量,如结构或功能连通性(图3C)。

图片
图片

图3 成像转录组学分析的类型

大多数研究依赖于区域基因表达分析或CGE估计,并将其与使用空间(质量)单变量,连接体范围或多变量分析技术的神经成像测量相关联。分析方法之间的选择取决于正在研究的具体假设和成像表型。例如,使用数据驱动和假设驱动的方法,神经成像表型的区域差异可以与基因表达的区域模式相关,而来自结构或功能数据的脑连通性的成对测量可能更自然地与CGE联系在一起,CGE可以捕获脑区域之间共享的转录模式。转录和神经成像数据的一个重要特性是强空间自相关性;距离较近的区域往往比距离较远的区域具有更相似的值。在基因表达数据中,任意两点之间的相关性随着它们的空间间隔大致呈指数衰减。这种CGE的指数距离规则已经在各种空间分解的转录数据中得到证实,包括人类皮层、成年小鼠大脑、整个发育和秀丽隐杆线虫的头部。在动物的连接概率和强度以及人类大脑的区域间结构连接中,已经确定了类似的指数距离规则。

由于传统的统计方法假设观测值的独立性,分析空间自相关(即非独立)数据需要特别考虑,因为自相关可能虚假地夸大表达和成像数据之间的关联。因此,不考虑空间非独立性可能会对真实关联产生过于乐观的估计。

解决空间自相关性的一种方法是建模并消除数据的空间依赖性(例如,通过回归),然后分析残差。这种方法非常适合于两两区域特性的分析,例如CGE,但是它依赖于这样一个假设,即建模的空间依赖性是必须去除的空间自相关性的良好近似值。

另一种非常适合区域分析的方法涉及使用空间约束的零模型。这些零模型保留了空间图的自相关性,从而可以推断经验观察到的表达与神经影像学测量之间的相关性是否超出了2个随机自相关变量的预期(图4)。在神经影像学研究中,这类空间约束模型有两大类:非参数空间排列模型和参数化空间模型。非参数模型非常适合于大脑皮层的分析,并利用皮质表面可以映射到球体的事实,允许简单的旋转,将值分配到特定的皮质位置,同时保留数据的精确距离依赖性。参数化模型估计经验地图的内在空间自相关性,并使用所得模型生成具有随机地形但空间自相关性相似的代理地图。

图片
图片

图4 空间零模型

空间置换模型的主要优点是保留了经验数据的距离依赖关系。然而,缺失的区域,如内部,在地图旋转后可能会产生问题(即,内部可以旋转到皮质位置),并且已经开发了各种启发式方法来解决这个问题,例如丢弃缺失的数据,根据最近的可用区域为缺失的包插入数据,或者忽略内部。另一个限制是基于排列的方法不能应用于皮层下结构,这些结构通常不能充分地建模为二维球面。参数化模型不受缺失数据的影响,可以等效地应用于皮层和皮层下测量,但不能保证经验距离依赖与原始经验值的精确匹配。因此,涉及不同空间图的分析可能受到模型拟合变化的影响。对这些不同的皮质分析方法的各种实现的比较表明,基于排列的模型比参数化模型提供更保守的显著性估计和更低的错误率。然而,没有一种方法是完美的,对于强自相关数据,错误率超过40%,这表明需要进一步发展有效的推理。

3. 阶段3:评估基因特异性和富集程度

目前的全脑转录图谱量化了多达w20,000个基因的表达水平。鉴于一组给定的成像表型可能导致大量的关联,确定某些基因或基因集是否优先与感兴趣的表型相关是至关重要的。分析可以大致分为以下两类:1)假设驱动型分析,即分析具有假设意义的特定基因(或一组基因);或2)数据驱动,即在整个转录组中计算效应,然后推断特定基因[或功能分类的基因组]的优先参与。

假设驱动的分析已被证明有助于理解不同疾病中假定的责任基因的表达谱与大脑变化之间的联系,以及某些特定基因的表达与连接相关表型之间的联系。细胞特异性标记基因的转录谱显示与一系列疾病的皮质厚度变化以及皮质髓鞘形成和厚度的年龄相关变化相关。然而,正如Wei等人所概述的那样,大部分工作都忽略了这样一个问题,即所报道的关联是否特定于所选的一组基因,或者是否可以使用不同的一组基因来识别类似的关联。考虑到基因表达数据的低维度,其中常见的大规模梯度解释了基因间转录变异的很大一部分,通过比较已确定的表达和神经影像学测量之间的关联与使用其他基因组观察到的效果来评估基因特异性至关重要。经验发现表明,即使在使用空间约束零模型评估的空间特异性关联中,使用随机基因集进行自由基因特异性测试时,只有58%的关联存活,而使用随机选择的在大脑中特异性表达的基因时,只有37%的关联存活。模拟进一步表明,在空间自相关的大脑表型和单基因转录谱之间确定的所有关联中,只有3%的基因在空间自相关和基因特异性校正后存活下来。这一结果表明,控制空间自相关不足以识别特定的基因-表型关联,并且文献中大部分看似有意义的关联可能并不特定于所报道的基因集。因此,选择一个适当匹配的基因集来评估一个发现的特异性,应该仔细考虑数据中提出的具体问题。作为第一步,考虑到大量相关基因可能掩盖特异性或主导结果,特别是在多变量分析中,检查感兴趣的基因与任何其他不包括在目标集中的基因之间的空间相关性总是好的做法。

与假设驱动的研究相比,数据驱动的分析测试了与一组先验选择基因的关联,而数据驱动的分析测试了转录数据中分析的数千个基因中每个基因的表达谱与感兴趣的表型之间的关联。然而,许多基因并不是独立的,它们具有相似的空间相关表达模式或作为共同生理途径的一部分共同工作。因此,在数据驱动的分析中,测试与表型的特别强的关联是否集中在某些功能相关的基因组中是很常见的。这些分析最常见的方法包括使用基于层次系统的基因到功能注释,如基因本体或京都基因和基因组百科全书,它们根据基因与分子功能、细胞成分和生物过程的关联对基因进行分类。传统上,这种基因类别富集分析(GCEA)已被用于支持全基因组关联结果的解释,或用于选定组织样本中基因表达的病例对照比较,通过评估基因类别与随机选择的基因相比是否优先与表型相关(图5A)。

将GCEA应用于空间嵌入的转录数据引入了额外的统计考虑,可能导致虚假的富集证据。例如,Fulcher等人指出,文献中不同神经影像学表型的GCEA结果暗示了与代谢、神经元和一般行为过程相关的相似基因类别。在随机产生的表型的大集合上进行富集,作者表明GCEA的应用与跨基因类别的假阳性率平均膨胀约500倍相关。此外,他们还表明,在文献中,假阳性率较高的基因类别更常被报道为显著性的,这与影响已发表研究结果的偏见是一致的。他们表明,这种偏差主要是由基因本体类别内基因相关性的程度所驱动的,因此,在整个大脑中,包含表达谱更相似的基因的类别更有可能被显著富集。用于GCEA的经典零模型没有考虑到这种相互关联结构(或空间自相关),导致统计推断偏向于假阳性(图5A)。作者建议通过随机化表型(而不是基因)来产生零分布,从而在零样本中保留类别内的基因-基因相关结构。从上一节可以明显看出,表型可以以空间约束或无约束的方式随机化(图5B)。使用这种以表型为中心的零模型进行推断,大大减少了在小鼠和人类中测量的14种不同大脑表型的分析中发现的显著富集结果的数量。这些发现表明,文献中报道的大部分富集结果可能受到假阳性偏倚的影响,需要进一步调查以验证。

图片
图片

图5 基因类别富集分析

4. 结论和前进方向

我们概述了与成像转录组学分析相关的几个关键考虑因素(图6)。对这些考虑因素的详细调查强调了在进行处理和分析选择时需要注意的问题。已经开发了几个开源工具箱,它们允许实现我们在每个分析阶段概述的许多最佳实践过程。然而,即使依赖于这些工具,也需要根据具体情况仔细考虑有效的推断和可重复的结果。此外,任何使用AHBA数据的分析都必须考虑几个关键的限制。

首先,基因表达和蛋白质丰度之间的关系是复杂的,转录活性的变化并不一定影响蛋白质水平。其次,AHBA依赖于大量组织样本的微阵列分析,结果估计可能受到细胞组成的区域差异的影响;因此,结果应尽可能与单细胞rna测序数据交叉验证。第三,尽管AHBA的设计目的是量化个体间保守的典型转录模式,并提供与其他死后组织库相比无与伦比的空间覆盖但AHBA的测量结果仍然来自6名成年供体的小样本。AHBA基因表达的变异性在不同脑区比在这6个人中要大得多,这表明该图谱可以用于研究强大的区域表达谱,但对供体脑代表性的担忧仍然是有效的。第四,AHBA仅检测成人大脑中的基因表达模式,但许多神经表型可能依赖于发育复杂且动态变化的基因表达模式。最后,由于AHBA数据是基于小样本的死后测量,任何发现的基因表达模式和成像表型(或其他结果)之间的关系都是纯粹相关的,并不能直接揭示因果机制。这一点在临床应用中尤为突出。

考虑到这些局限性,AHBA应该被视为产生假设的有用资源,然后应该使用体外或体内模型通过分析表达数量性状位点或通过补充分析,尽管解剖学上不太全面,但在更多的人、不同发育时间点或特定患者群体中测量基因表达的互补数据集进行进一步测试。遗传疾病也可以提供一个强大的验证工具。解剖学上全面的转录图谱的精确度和复杂性的提高,将理想地朝着群体规模、体素分辨率、单细胞RNA测序数据库的方向发展,将继续提供新的机会,以确定在活体中无创测量的宏观神经成像表型的分子相关性。

图片
图片

图6 使用Allen人脑图谱跨3个分析阶段对人脑成像转录组学分析的一般建议。

参考文献:Toward Best Practices for Imaging Transcriptomics of the Human Brain.

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档