前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Comput. Sci. | 使用神经网络结构对基因调控网络进行建模

Nat. Comput. Sci. | 使用神经网络结构对基因调控网络进行建模

作者头像
DrugAI
发布2021-09-17 11:45:32
1.6K0
发布2021-09-17 11:45:32
举报
文章被收录于专栏:DrugAI

本文介绍由清华大学交叉信息科学研究所的Hantao Shu等人发表于Nature Computational Science的研究成果:本文作者提出了一个深度生成模型DeepSEM,它可以联合推断GRN和单细胞RNA测序数据的生物学表示。DeepSEM与最先进的方法相比,在各种单细胞计算任务上取得了相当或更好的性能。此外,DeepSEM在小鼠皮层数据上进行验证,进一步证明了该模型的准确性和效率。DeepSEM可以提供有用且强大的工具来分析细胞的scRNA-seq数据,同时可以推断细胞的GRN。

1

简介

单细胞测序技术的快速发展为生物学家研究细胞状态提供了前所未有的机会。而在批量测序数据中不会发现的实验噪音,会显着降低下游生物信息学分析结果的准确性。为了解决这个问题,人们应用深度学习模型通过模拟基因之间复杂的相互作用模式来过滤单细胞转录组数据中的噪音。基于深度学习的方法能够对基因相互作用进行建模,更清晰的揭示细胞异质性,捕捉具有相同细胞类型的细胞之间的转录组学相似性和不同类型细胞之间的差异。然而,到目前为止,基于深度学习的单细胞分析框架通常是黑匣子,很难评估基因调控网络(GRN)结构或任何其他数据内部结构。

许多计算模型已尝试将推断GRN纳入其单细胞数据分析模型。其中一类方法依赖于侧面测量,例如单细胞染色质开放性或转录因子(TF) 结合motif。然而,这些测量通常需要复杂的实验设计,并且还可能引入额外的噪音。基于单细胞RNA测序(scRNA-seq)数据的方法也有明显的局限性。例如,推断GRN的算法通常使用针对共表达网络的统计算法,而不是解码TF及其相应目标基因之间的因果关系。此外,大多数用于基因相互作用的算法都是线性模型或基于树的模型,很难将这些方法直接推广到更全面的非线性框架。

本文作者提出一个深度生成模型DeepSEM用于解决上述问题,该模型可以联合基因表达数据,同时构建GRN反映单细胞内基因相互作用的内部结构,而无需依赖任何额外信息,例如TF 结合motif或单细胞ATAC测序(scATAC-seq)数据。DeepSEM的整体框架是一个 beta-variational autoencoder (beta-VAE),其中编码器和解码器函数的权重代表GRN的邻接矩阵。DeepSEM中的非线性神经网络用于解决单细胞数据分析中的挑战,例如实验噪音、高维数据和可扩展性。此外,通过对 GRN 进行显式建模,DeepSEM比传统的神经网络模型更加“透明”,并且可以通过限制参数空间来减少深度学习模型的过拟合问题。

作者在多个基准数据集上评估DeepSEM在各种单细胞任务中的性能,例如:推断GRN、scRNA-seq数据可视化、识别细胞类型和细胞模拟。与几个流行的最先进算法相比,DeepSEM 在GRN推断任务上获得更好的性能。还将DeepSEM应用于另一个没有真实GRN的单细胞数据集上,从单细胞DNA甲基化和开放染色质数据中获取了大量证据证明本文算法的准确性和效率。此外,作者还评估了GRN结构正则化单细胞表示的质量。与当前最先进的方法相比,DeepSEM在各种基准数据集上的可视化和识别细胞类型的任务具有相当或更好的性能。

DeepSEM 的另一个重要功能组件是通过扰动其隐藏神经元的值来模拟scRNA-seq数据。计算机视觉数据模拟在数据增强方面取得了巨大成功,尤其是在训练样本数量有限的情况下。在单细胞生物学中,同样类型的模拟算法也被应用于scRNA-seq数据,以预测样本外的单细胞扰动反应,识别标记基因并增加稀疏细胞群以提高细胞分类的准确性。最先进的模拟算法旨在基于生成对抗网络(GAN)生成“真实的”scRNA-seq 数据,以使模拟数据的低维投影与真实细胞的分布无法区分。本文的DeepSEM能够实现与其他基于GAN的模型相比更真实的模拟。此外,作者通过GRN一致性,衡量模拟单细胞数据的质量。对几个基准数据集的测试表明,与最先进的单细胞模拟器相比,DeepSEM能够获得真实的scRNA-seq表达谱和更高的GRN一致性。

2

结果

DeepSEM框架概述

给定scRNA-seq数据集作为输入,DeepSEM通过使用beta-VAE框架生成SEM来联合建模GRN和转录组(图 1)。DeepSEM有两个神经网络层,命名为GRN层和逆GRN层,以明确地对GRN结构进行建模。与传统深度学习模型将所有基因的表达一起嵌入到一个潜在空间中不同,DeepSEM的编码器函数仅将一个基因的表达作为神经网络的输入特征。不同基因的神经网络之间共享权重,或者可以将其视为使用一个神经网络来扫描所有基因。在这一步,模型中不同基因之间没有相互作用。然后另外两个全连接神经网络将这些小型神经网络的输出转换为多元高斯分布的后验均值和标准差。解耦非线性操作和基因相互作用是DeepSEM同时实现更稳健和可解释的隐藏表示的关键。接下来,配备逆GRN层的解码器函数将隐藏表示转换回基因表达值,这使整个框架成为自动编码器(图 2)。通过对GRN和单细胞转录组数据进行联合建模,DeepSEM作为一种多功能工具,可以通过分析不同的模块来完成单细胞数据分析中的各种任务。

图1 DeepSEM概述

左:DeepSEM两个主要模块,编码器(左下)和解码器(左上)。

右:DeepSEM通过利用不同的模块执行三个主要功能:

(1)GRN 预测(右下),(2)scRNA-seq 数据嵌入和可视化(右中),以及(3)scRNA-seq模拟(右上)。

图2 DeepSEM 的神经网络架构

DeepSEM的VAE包含四个模块:编码器、GRN层、逆GRN层和解码器。编码器和解码器都是以一个基因为输入的MLP,编码器和解码器的权重在不同基因之间共享。GRN层和逆GRN层都是基因相互作用矩阵,它们显式地对GRN网络进行建模并引导神经网络的信息流。g1-g6:基因表达数据中基因的名称;c1-c4:基因表达数据中细胞的名称;NN:神经网络。

推断GRN的性能

为了评估 DeepSEM在GRN推断上的性能,作者遵循了BEELINE·框架工作,该框架收集了四种不同类型的真实网络和七个scRNA-seq数据集,其中包括五种来自小鼠的细胞系和两种来自人类的细胞系。对于每个数据集,只考虑高度可变的TF和前N个(N=500和1,000)个变化最大的基因。通过BEELINE框架中使用的早期精确率(EPR)(图 3)和精确率-召回率曲线下的面积(AUPRC比率)评估性能。作者将DeepSEM与六种基线算法进行了比较,包括GENIE3、PIDC、GRNBoost2、SCODE、ppcor和SINCERITIES,这些算法已被证明在基于BEELINE评估的基准数据集上获得最先进的性能。为了从深度学习模型中获得稳定的预测,作者使用集成策略来生成最终预测。

总体而言,就EPR和AUPRC比率指标而言,DeepSEM优于scRNA-seq数据集上的所有其他基线方法(图 3)。当使用EPR进行评估时,DeepSEM实现了最佳预测性能,并且与次佳方法(GENIE3)相比至少提高了10%。在考虑AUPRC比率指标时,DeepSEM实现了最佳预测性能,与次佳方法(PIDC)相比,性能至少提高了10%。此外,DeepSEM在大多数基准测试中的表现明显优于 SCODE、ppcor和SINCERITIES。

图3 在EPR方面的GRN预测性能总结

使用表观遗传数据验证GRN

DNA甲基化和染色质开放性会影响转录因子与顺式调控元件的结合,从而影响下游靶基因的表达。为了进一步探索DeepSEM识别的GRN的生物学意义,作者还检查了DeepSEM预测的基因调控与从细胞类型特异性表观遗传数据推断的基因调控之间的一致性。先前的研究报告称,将TF结合motif信息与表观遗传数据相结合可以细胞类型特异性方式准确预测TF结合位点。因此,作者假设,如果一个TF在给定的细胞类型中调控基因,它应该更有可能与有低CG甲基化和相应细胞类型中靶基因侧翼区域的开放染色质的TF motifs相关联。

为了验证这一假设,作者将DeepSEM框架应用于来自小鼠皮层的scRNA-seq数据集,并将结果与单核甲基胞嘧啶测序(snmC-seq)和scATAC-seq数据进行比较。为了寻找支持标记基因调控的表观遗传证据,作者使用scATAC-seq峰和差异甲基化区域(DMR)作为每个细胞类型特异性基因的潜在调控元件,然后对于每个基因,计算其预测的调节因子的比例。与作者的假设一致,作者发现不同类型的调控区域大量富集,其中包含预测的TF的motif(图 4a),表明 DeepSEM从表观遗传方面识别的GRN具有很高的准确性。

更具体地,作者检查了与Rorb相关的预测,发现这些TF结合motifs位于Rorb的第一个内含子中,其中motif内的胞嘧啶在L4中特异性低甲基化,表明这些TF与Rorb之间存在细胞类型特异性调节关系(图 4b)。作为另一个例子,作者预测Syt6可能受L6 CT中的 Nf1a、Stat1和Sp3调节。因此,通过与scATAC-seq数据进行比较,作者观察到与沿着Syt6基因体的这些TF的结合motif相关的区域在L6 CT细胞中是特异性开放的(图 4c)。值得注意的是,所有这六个上游TF在目标和非目标细胞类型中都一致表达(图 4d)。总之,这些研究支持作者预测的GRN,并表明DeepSEM在研究细胞类型特异性基因相互作用网络方面的潜在效用。

图4 使用表观遗传数据验证GRN预测

细胞表示

先前的研究表明,通过考虑不同基因之间的相互作用,例如蛋白质-蛋白质相互作用网络、GRN、来自体细胞RNA-seq数据的共表达网络和注释通路,可以为scRNA-seq提供更好的生物学解释。特别是,将调控关系与基因表达联系起来已被证明能够有效地克服单细胞和批量测序实验中的dropout和其他技术问题。由于DeepSEM的细胞表示是从表达式到GRN活动的非线性映射,作者假设隐藏表示也可以通过显式建模GRN结构来有效定义细胞状态和细胞类型。为了评估细胞表示的质量,作者应用DeepSEM来识别9个scRNA-seq数据集上的不同细胞类型。为了对DeepSEM进行基准测试,作者还将其与其他四种方法进行了比较:scVI、DCA、ZIFA 和FA。总的来说,DeepSEM 在9个基准数据集中的5个数据集上的表现优于所有四种基线方法,并且在其他数据集上也取得了较好的性能(图 5a)。

图5 单细胞聚类和嵌入

scRNA-seq模拟

在本研究中,作者在PBMC数据集上比较了DeepSEM与其他两种基于GAN的方法 cscGAN和scGAN的模拟性能。作者发现,当使用计算方法和专家给定细胞类型标签进行聚类时,所有三种方法都可以生成与原始数据几乎无法区分的低维嵌入(图 6a)。作者训练了一个随机森林(RF)分类器,以区分每个Louvain簇和包含超过2,500个细胞的每个细胞类型的模拟数据和真实数据。作者的假设是,如果模拟数据生成是“真实的”,RF模型的预测性能应该接近随机。作者观察到,分别与cscGAN和scGAN相比,RF的分类性能平均下降了1.21%和19.77%,以区分DeepSEM生成的模拟数据和真实测试数据(图 6b)。DeepSEM实现了逼真的模拟,表明整合GRN可能是对scRNA-seq数据建模的关键步骤。

作者还提出了另一个概念,称为GRN一致性,用于衡量模拟单细胞的质量。GRN一致性衡量真实和模拟scRNA-seq数据之间预测GRN的差异。也就是说,如果scRNA-seq模拟是真实的,则使用模拟数据集获得的GRN预测应该与来自真实数据集的预测相匹配。作者发现,与cscGAN和scGAN相比,DeepSEM能够实现更高的GRN一致性(图 6c)。该结果表明,DeepSEM能够生成满足生物学约束的更真实的scRNA-seq数据。

图6 DeepSEM与cscGAN和scGAN模拟性能的比较

3

总结与讨论

在本文中,作者介绍了一个通用的计算框架可以联合建模GRN和单细胞转录组数据。GRN的结构被明确建模为神经网络的特殊层,作为生物约束来限制参数空间。DeepSEM与最先进的方法相比,在单细胞计算任务上取得了较好的性能。

本文的研究也存在一些局限性

(1)由于逆 GRN 层中的“逆”操作,运行时间随着所涉及的基因数量而增加。

(2)从经验上看,DeepSEM比其他VAE模型要慢,例如scVI。

(3)为了解决训练过程中的潜在限制,作者建议用户选择高度可变的基因,而不是使用整个转录组作为输入特征。

DeepSEM模型在单细胞生物学中的潜在的应用:

(1)由于所有细胞共享相同的基因组,GRN可以在不同的模式之间共享,例如转录组和表观基因组数据。因此,DeepSEM可以通过利用GRN作为“桥梁”构建公共潜在空间来整合不同的单细胞模式。

(2)使用DeepSEM框架整合其他分子相互作用网络,例如蛋白质-蛋白质相互作用网络、开放染色质数据、DNA结合motifs和遗传相互作用网络,以进一步推断GRN并获得更高的准确性。

参考资料

Shu, H., Zhou, J., Lian, Q. et al. Modeling gene regulatory networks using neural network architectures. Nat Comput Sci 1, 491–501 (2021).

https://doi.org/10.1038/s43588-021-00099-8

代码链接:https://github.com/HantaoShu/DeepSEM

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
联邦学习
联邦学习(Federated Learning,FELE)是一种打破数据孤岛、释放 AI 应用潜能的分布式机器学习技术,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果实现联合建模。该产品兼顾AI应用与隐私保护,开放合作,协同性高,充分释放大数据生产力,广泛适用于金融、消费互联网等行业的业务创新场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档