前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >预测高通量筛选中对复杂干扰的细胞反应

预测高通量筛选中对复杂干扰的细胞反应

作者头像
DrugAI
发布2023-09-19 14:18:12
2500
发布2023-09-19 14:18:12
举报
文章被收录于专栏:DrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自Fabian J Theis团队的一篇关于药物和基因扰动的论文。最近在多重单细胞转录组学实验方面的进展,促进了对药物和基因干扰的高通量研究。然而,对干扰空间的详尽探索是不可行的。因此,需要计算方法来预测、解释和选择干扰。作者提出了组合干扰自动编码器(CPA),它将线性模型的可解释性与深度学习方法的灵活性相结合,用于单细胞响应建模。

单细胞RNA测序(scRNA-seq)可在组织间和物种间的数百万个细胞中分析基因表达。最近,新的技术已经发展出扩展这些测量到高通量筛选(HTS)的方法,这些方法可以测量对数千个独立干扰的响应。这些进展显示出促进和加速药物开发的前景。在单细胞水平应用HTS,可以提供全面的分子表型,并捕获异质性的反应,而传统的HTS无法识别这些反应。

尽管像cellular hashing这样的高通量方法降低了多样本实验中scRNA-seq的成本,但这些策略需要昂贵的文库制备,并且难以扩展到大量干扰的条件。当探索联合疗法或基因干扰的效应时,这些不足变得更加明显,因为实验筛选所有可能的组合变得不可行。虽然像人类细胞图谱(Human Cell Atlas)这样的项目旨在以可复制的方式全面绘制细胞状态在组织中的分布,但由于干扰对基因表达的影响具有多种可能性,构建类似的图谱是不可能的。由于暴力搜索组合空间是不可行的,因此有必要开发计算工具来引导对组合干扰空间的探索,以在HTS中选取有希望的候选联合疗法。对于组合空间的导航而言,成功的计算方法必须能够预测细胞在仅在原始实验中单独测量的新干扰组合下的行为。这些数据被称为分布之外(Out-Of-Distribution,OOD)数据。OOD预测将使我们能够研究在不同治疗剂量下的干扰、联合疗法、多个基因敲除以及随时间的变化下的干扰。

最近研究人员已经开发了几种计算方法来预测对干扰的细胞反应。然而,当前基于深度学习(DL)的方法也存在局限性:它们仅建模少数几种干扰;无法处理组合治疗;无法纳入剂量和时间等连续协变量,或细胞类型、物种和患者等离散协变量。因此,尽管当前的DL方法已经对单个干扰进行了建模,但尚未提出适用于HTS的方法。为了应对这些困难,作者提出了组合干扰自动编码器(CPA),一种用于预测scRNA-seq干扰反应的方法,可以应对跨剂量、时间、药物和基因敲除等条件的组合。

多个干扰作为基因表达潜在空间中的组合过程

以往的研究将干扰对基因表达的影响建模为独立的过程。除此之外,以往的方法使用条件变分自编码器建模联合潜在空间是不可解释的,并且无法预测条件组合的效应。作者的目标是将神经网络的潜在空间分解为可解释的、组合模型。如果潜在空间是线性的,我们可以将观察到的基因表达描述为一个因子模型,其中每个分量是一个单独的干扰。然而,基因表达潜在空间,特别是在复杂组织中,是非线性的。在scRNA-seq数据集中,细胞群体的基因表达谱通常在多个干扰条件下观察到,每个细胞都带有其实验条件和干扰的标签,其中实验协变量以分类标签的形式捕获,而干扰则使用连续值进行捕获。这假设每个条件下的细胞数足够多,以便使用大型神经网络估计控制状态和干扰状态下的潜在空间。

与在基因表达空间中假设因子模型不同,作者在非线性的潜在空间中建模干扰效应的非线性叠加,并且将叠加限制为加性的。随后将干扰和协变量的效应解耦,并通过在非线性转换的标量权重中编码此信息,并且允许连续效应,例如药物剂量:学习到的药物响应曲线。线性潜在空间因子模型使我们能够解释该空间,通过将由协变量驱动的潜在空间方差与每个干扰引起的方差分离开来。在评估时,我们不仅能够插值和解释观察到的干扰组合,还能够预测其他组合。

组合干扰自编码器(CPA)

图 1

作者提出了组合干扰自编码器(CPA),这是一种结合了自然语言处理和计算机视觉思想的方法,用于预测单细胞基因表达中干扰组合的效应。给定一个包含多个干扰和协变量的单细胞数据集,CPA首先使用编码器神经网络将细胞的基因表达分解为一系列可学习的加性特征,这些特征对应于基线状态、观察到的干扰和观察到的协变量。关键是,CPA编码器学习到的细胞基线状态的潜在表示与对应于干扰和协变量的特征是相互独立的。通过在CPA的编码器网络与判别器分类器之间进行竞争训练,实现了这种分离。CPA的编码器网络的目标是学习一个表示细胞基线状态的特征,从该特征中判别器网络无法预测干扰或协变量值。为了考虑连续的时间或剂量效应,通过神经网络对每个干扰的学习特征进行非线性缩放,该神经网络接收每个细胞的连续协变量值,如时间或剂量。在将关于细胞的基线状态、干扰和协变量值的学习特征线性整合为统一特征之后,CPA使用非线性神经网络解码器恢复细胞的基因表达向量(图1A和B)。解码的非线性性使其能够捕捉复杂的细胞类型特异性和非加性的组合治疗效应。举个简单的例子,当一个细胞受到两个基因敲除干扰时,CPA通过线性组合每个干扰的单个处理特征和输入解码器的基线状态来学习重建组合治疗的整体基因表达效应。这样的约束使模型能够学习单个处理与其他处理组合时的行为模式,从而实现对训练期间未见过的组合的预测。

CPA使用反向传播(backpropagation)对重构和判别器误差进行训练,以调整编码器网络、解码器网络、与每个干扰和协变量值对应的特征,以及剂量/时间非线性缩放器的参数。学到的特征允许衡量不同干扰和协变量之间在基因表达方面的相似性。CPA的主要特点在于其在评估时的灵活性。在获得与一些观察到的基因表达、干扰和协变量值对应的分离特征之后,可以干预并将干扰特征与人为选择的任何其他干扰特征进行交换。这种操作实际上是一种估计对反事实问题的回答的方式:如果这个细胞被不同方式处理,它的基因表达会是什么样子?这种方法在预测未见过的干扰组合及其对基因表达的影响方面特别有意义。

CPA允许对单细胞干扰实验进行预测性和探索性分析

作者在三个小型单细胞数据集上展示了CPA的性能和功能:一个经IFN-β刺激的PBMCs数据集,一个受到四种药物干扰的人类肺癌细胞数据集,以及一个经LPS处理的吞噬细胞的纵向跨物种数据集。这些数据集代表了模型的不同潜在应用:(i)在不同细胞类型中的二元干扰,(ii)多样化剂量,以及(iii)与剂量不同,包括几个物种和随时间变化。作者将每个数据集分为三组:训练组(用于模型训练),测试组(用于调整模型参数),和OOD组(在训练或参数设置过程中从未见过,旨在衡量模型的泛化性能)。

在这里,作者考虑了受到IFN-β处理的红斑狼疮患者样本中的PBMCs。在这种情况下,刺激是二元的,没有与之相关的连续协变量(例如剂量或时间)。为了评估CPA在提供协变量和干扰信息时是否能够解耦这些信息,作者训练了两个模型:(i)只提供干扰标签的模型,(ii)同时提供干扰和细胞类型标签的模型。然后,我们检查了使用这些模型获得的基线潜在表示,这是在通过对抗训练将协变量和/或干扰信息转移到相应的特征中后剩余的潜在信息。如预期,使用模型(i)获得的潜在表示显示了良好的干扰混合,同时保留了细胞类型信息;另一方面,使用模型(ii)获得的潜在值显示了细胞类型和干扰的良好混合,因为在这种情况下,模型提供了两者的标签,并成功将这些信息特征到相应的潜在因子中。Srivatsan等人的Sciplex2数据集包含对人类肺腺癌细胞系(A549)进行四种药物干扰的测量,剂量逐渐增加。在这种情况下,模型学会了推广到未见过的药物剂量。为了有一个参考基准,作者制定了一个基线,该基线由OOD条件与训练数据集的随机子集之间得到的R2分数组成。超过这个基线的改进表明该模型已经学习到了干扰和协变量信息,而不仅仅是对训练数据的平均表示建模。在第三个例子中,作者研究了Hagai等人的跨物种数据集。在这里,作者展示了协变量的动态可以是非单调的函数,例如时间而不是剂量-响应。在这个例子中,来自小鼠、大鼠、兔子和猪的骨髓源性单核细胞被LPS干扰。CPA能够模拟基因的兴趣随时间的变化。

CPA在大规模单细胞高通量筛选中找到可解释的潜在空间

图 2

最近提出的sci-Plex实验通过核哈希技术在单个实验中对数千种独立的干扰进行了分析。在这个高通量筛选中,使用188种化合物在三种癌细胞系中进行了测试。这个化合物组合被选择来针对各种靶点和分子途径,涵盖了转录和表观遗传调控因子以及多种作用机制。筛选的细胞系包括A549(肺腺癌)、K562(慢性髓系白血病)和MCF7(乳腺腺癌),这些细胞系分别接受了这188种化合物的四个剂量(10 nM,100 nM,1 μM,10 μM)的处理,并生成了共计290,000个细胞的单细胞RNA测序数据(图2A)。与前面一样,作者将数据集分成了三个子集:训练集、测试集和OOD(Out-Of-Distribution,分布外)集。

CPA能够在未见过的OOD条件下进行精确的推理,因为它捕捉到了对一种化合物在最高剂量下未见过的例子的处理和对照条件之间的差异。以Momelotinib为例,与对照相比,它在治疗中表现出强烈的差异响应,这可以从最具差异表达的前5个基因的分布中看出(图2B)。CPA在建模未见过的干扰方面表现良好,因为在整体上,真实值和预测值在OOD条件下的相关性优于不同化合物之间的目标细胞和现有细胞的相关性(图2D)。当观察单个条件时(图2C),CPA在重新复现OOD条件下低和高均值表达的基因方面表现良好。组合性干扰自编码器在预测具有更多未见过协变量的实验时表现较差。为了评估模型对未见过条件的泛化能力,作者在28个不同的保留条件下训练了CPA,其中在1-3个细胞系中保留了一个剂量(图2E)。在训练后,CPA学习到了188种化合物的压缩表示,其中每种药物由一个256维向量表示(图2G)。为了测试学习到的药物特征是否具有意义,作者探究了具有相似作用机制的化合物在潜在空间中是否相似。对于许多主要的作用机制,可以发现表观遗传、酪氨酸激酶信号传导和蛋白质形成化合物在模型中聚集在一起,这表明这些机制的药物在这三种癌症细胞系上的有效性,与原始出版物的发现相吻合。

CPA预测药物的组合效应

图 3

随后作者进一步通过在A549细胞中进行一项新的组合实验来验证在sci-Plex数据上训练的模型,利用CPA在训练sci-Plex3数据时预测的干扰响应(图2)并选择高度响应的干扰来进行额外的验证实验。作者选择了各种途径和响应幅度的组合,使用原始实验中的次高剂量来捕捉最大的细胞变异性。可以看到这些组合将自己分为两个行为簇(图3A),较小的簇主要受Alvespimycin的转录响应控制。然后,作者评估了CPA模型预测保留的干扰组合的能力(图3B)。CPA成功预测了与对照相似、由一种化合物主导的组合以及含有两种化合物转录响应的组合的转录反应(图3B)。CPA的表现优于之前描述的随机基线模型和线性模型,并准确预测高度变化的基因的表达水平(图3C-E)。然后,可以通过查看从CPA干扰潜变量空间中组合单个干扰向量得出的潜变量空间来重建组合之间的表示(图3F)。

CPA是一个可扩展的用于预测单细胞干扰的框架

图 4

CPA的模块化架构的一个优点是其灵活性和可扩展性。虽然干扰词典在潜在空间中的组合结构中表现良好,但它仅限于训练集中存在的化合物集合。因此,对于未在实验中筛选的化合物预测干扰响应是不可行的。为了实现对未知药物的预测,Hetzel等人提出了称为chemCPA的方法。chemCPA引入了一个干扰网络,使用已知的化学描述符对小分子进行编码(图4A)。这个干扰网络取代了CPA中的干扰特征字典。作者将chemCPA应用于sci-Plex3数据集(图2)和新的组合数据集(图3)。在单药预测实验中,九种化合物作为OOD进行了保留。由于CPA的干扰词典仅限于训练集中观察到的化合物,因此当这些药物完全排除在训练之外时,无法比较CPA和chemCPA。作者训练集和验证集中保留了两个最低剂量的观测值,以便在具有挑战性的情况下进行比较。在这种设置下的结果表明,化学先验改善了对整个基因集和差异表达基因在不同剂量下的干扰预测能力(图4B)。此外,可以观察到chemCPA在属于组蛋白去乙酰化通路的化合物上表现出很好的泛化能力(图4C),这与原始的sci-Plex出版物和干扰数据集中的一般结论一致。

结论

对细胞在受干扰后行为的体外预测对于优化实验设计和确定有效的药物和治疗方法至关重要。作者提出了CPA,引入了一种多功能且可解释的方法来对单个细胞的行为进行建模。CPA是通过使用随机梯度下降训练的神经网络实现的,可以扩展到数百万个细胞和数千个基因。作者将CPA应用于各种数据集和任务,包括预测单个细胞的响应、学习特征以及重建具有可变药物剂量组合的化合物的表达响应。具体而言,文章展示了在剂量水平和时间序列中建模扰动的能力,并在药物扰动研究以及具有多个基因敲除的遗传扰动实验中展示了应用实例,揭示了由模型预测值推断出的潜在基因-基因相互作用模式。CPA结合了线性分解模型的可解释性和非线性特征模型的灵活性。

参考资料

Lotfollahi, M., Klimovskaia Susmelj, A., De Donno, C., Hetzel, L., Ji, Y., Ibarra, I. L., ... & Theis, F. J. (2023). Predicting cellular responses to complex perturbations in high‐throughput screens. Molecular Systems Biology, e11517.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-26 08:52,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档