前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Comput. Sci. | 将单细胞ATAC测序数据与基因组序列整合以辨识细胞类型

Nat. Comput. Sci. | 将单细胞ATAC测序数据与基因组序列整合以辨识细胞类型

作者头像
DrugAI
发布2024-05-14 10:07:38
2620
发布2024-05-14 10:07:38
举报
文章被收录于专栏:DrugAI

今天为大家介绍的是来自中山大学杨跃东团队的一篇论文。单细胞染色质可及性测序(scATAC-seq)技术能揭示基因调控和表观遗传异质性的单细胞分辨率细节,但由于数据的高维性和极端稀疏性,通过scATAC-seq进行细胞标注仍然具有挑战性。现有的细胞标注方法主要关注细胞峰值矩阵,并没有充分利用基因组序列。作者提出了一种名为SANGO的方法,通过整合scATAC数据中可达性峰周围的基因组序列来进行精准的单细胞标注。基因组序列的峰(peak)被编码成低维嵌入向量,然后通过一个全连接网络迭代用于重建细胞的峰值统计。学习到的权重被视为表征细胞的调控模式,并用于通过图变换网络将查询细胞与参考数据中的已标注细胞对齐,进行细胞标注。SANGO在55个配对的scATAC-seq数据集上,在样本、平台和组织持续优于其他方法。SANGO还能通过图变换学到的注意力边权重探测未知的肿瘤细胞。此外,从已标注的细胞中,作者发现了细胞类型特异性的峰,这些峰通过表达富集分析、顺式调控染色质相互作用分析和基序富集分析提供了功能性见解/生物信号。

鉴于scATAC数据固有的可达性峰的高维性和每个细胞的测序读数的稀疏性,研究者已经开发出多种方法,通过对基因体内所有计数求和、将scATAC-seq片段与基因重叠或使用共访问性计算,将scATAC-seq数据转换为合成的单细胞RNA测序(scRNA-seq)数据,从而估算出一个“基因活性矩阵”。这些转换后的数据类似于scRNA-seq数据,并可通过scRNA-seq工具如Seurat、SingleR、SingleCellNet和scNym进行处理。关于与scRNA-seq数据的差异,已有少数方法通过神经网络专门为scATAC数据进行了优化。遗憾的是,这些方法仅仅通过求和基因周围峰的计数,因此忽略了峰的特异性。为解决这一问题,一些方法直接使用峰与细胞矩阵数据来标注细胞类型。但它们考虑这些峰时独立于其他峰,并未考虑它们的相对位置。更重要的是,这些方法没有考虑基因组序列信息。

为此,作者提出了SANGO,一种准确且可扩展的基于图的方法,通过整合DNA序列信息,用于标注scATAC-seq数据中的细胞。SANGO首先通过通道注意力卷积神经网络(CA-CNN)从峰的基因组序列信息中学习scATAC数据的低维信息表征。然后,将学习到的低维表征输入到图变换器中,通过在相似细胞之间传播共享信息来消除批次效应。最终,图变换器通过参考数据中的细胞标签进行微调,并用于预测查询的细胞类型。SANGO被证明在55个配对的scATAC-seq数据集上,横跨样本、平台和组织,都超越了先前的方法。它还能够探测未知的肿瘤细胞。此外,从标注的细胞中,细胞类型特异的峰可以用于下游分析,以提供功能性见解和生物信号。

模型部分

图 1

SANGO包括序列信息提取(Sequence information extraction)和细胞类型预测(Cell-type prediction)两个阶段。在第一阶段,围绕第i个峰,提取一个L-bp长度的DNA序列,并将其转化为独热编码形式的L × 4矩阵。该矩阵经过C个卷积滤波器的初步处理,以生成尺寸为C × F的特征矩阵。随后,该矩阵被输入到一个通道注意力一维卷积神经网络中。接着是一个bottleneck,学习峰的d维嵌入。这些嵌入随后用于通过一个带有权重矩阵Wc(尺寸为d × Ncell)的线性变换来预测所有Ncell细胞的峰的二进制可访问性。第一阶段中的所有可学习参数通过所有峰的二进制交叉熵损失迭代优化。最终,密集网络中学到的权重作为Ncell细胞的d维表示。在第二阶段,通过相似性使用reference data和query的已学习表征构建一个细胞图,使用graph transformer来消除批次效应并根据query中Nr_cell细胞的真实标签Y预测细胞标签Y^。最后,训练好的graph transformer用于预测query中Nq_cell细胞的细胞类型。

数据集内细胞类型注释的性能

图 2

如图2a所示,作者提出的方法(SANGO)表现最佳,平均准确率达到96.4%,比排名第二的方法scJoint高出3.3%。这种差异主要来自于序列信息,因为去除序列信息(SANGO-noseq)导致平均准确率下降了6.4%。第三佳的方法是scNym,平均准确率为92.5%,部分原因是它是为scRNA-seq数据设计的,并没有专门针对scATAC-seq数据进行优化。另外两种scRNA-seq分析方法(SingleR和Seurat)的准确率最低(分别为61.9%和81.6%),这表明与scNym使用的深度学习相比,它们的机器学习或线性相关技术的效力较弱。作者注意到EpiAnno表现不佳,可能是因为它并不是设计来识别详细细胞类型的。在EpiAnno用来识别粗略细胞类型的数据集上,EpiAnno的表现略逊于作者的方法(图2b),但比其他五种方法好得多。在这项简单任务上,大多数方法的准确率都在90%以上。为了进一步阐释SANGO的优势,作者展示了大肠B型与大肠A型配对案例的河流图。如图2c所示,在鉴别最难的B细胞和T细胞方面,我们的方法分别实现了91%和97.3%的准确率。scNym和EpiAnno的B细胞准确率不足50%,且完全未能识别T细胞。相比之下,尽管scJoint未能预测T细胞,但其在B细胞的表现更佳。我们的方法(见图2d)成功将T细胞与B细胞分离。对于稀有的内皮I型细胞,SANGO在去除基因组序列信息后未能分离这些细胞,但其预测准确率(91%)仍高于SingleR(73%)和其他方法(<10%)。这结果是在预期内的,因为SANGO-noseq 在删除基因组序列信息后未能分离这些细胞。这些结果表明,SANGO 提供的嵌入具有更好的细胞内类型紧凑性和细胞间类型可分离性,这有利于进一步的细胞分类。

跨平台或组织数据集的性能

图3

如图3a所示,SANGO在各种测试中一直表现最好,平均准确率达到77.6%,比排名第二的Cellcano高出10.1%。相比之下,我们的方法在这两个数据集上一直表现最佳(分别为78.3%和78.8%)。如图3b所示,在MosP1–Cerebellum案例数据中,通过整合基因组序列信息(SANGO-nograph,即不使用graph transformer的SANGO),原本属于一类的内皮细胞和小胶质细胞可以被区分开来,但相同类型的细胞聚类效果不佳。完整版本的SANGO展示了簇内紧凑性和簇间分离性。相反,Seurat和scNym未能将内皮细胞与星形胶质细胞区分开来。SingleR将内皮细胞和小胶质细胞混合在一起。在涵盖七种组织(骨髓、肝脏、肾脏、肺、心脏、肠和小鼠大脑)的22组交叉组织数据集中,SANGO表现出色,平均准确率达到86.3%(见图3c),这显著高于其余模型。同样,在骨髓B和肝脏案例数据中(见图3d),SANGO能解决原始数据中所有细胞类型的混合问题。其他竞争方法未能良好地聚类细胞,并且难以将单核细胞与其他细胞分离。所有方法都未能独立分离出T细胞和调节性T细胞,这可能是因为这些都是具有相似基因表达的免疫细胞。

以多源数据或图集数据为参考的性能

图 4

如图4a所示,SANGO的表现最佳,平均准确率达到93.2%,比接下来两个表现最好的方法(scNym和scJoint)分别高出6.4%和7.4%。作者还测试了SANGO在从单一参考数据集向组合查询数据集转移标签时的表现,结果显示SANGO依然表现最佳。为了研究在真实单细胞图谱数据上的表现,作者使用参考的外周血单核细胞(PBMC)图谱为来自10x的查询PBMC数据集标注细胞类型。由于查询数据没有基准真值标签,作者使用Seurat23作为参考标签进行细胞类型标注。如图4c所示,SANGO预测的大部分细胞类型与Seurat的标注相同,除了SANGO在记忆型和天真型B细胞上做了相反的标注(图4c,黑圈)。通过标记基因周围的峰值信号证实了SANGO的标注(图4d):标注为天真型B细胞的显示在报告的标记基因TCL1A24上有富集的峰值,而标注为记忆型B细胞的在标记基因FCGR2B25和特异性表达的TEX9基因26上显示富集的峰值。

揭示对正常组织的生物学影响

图 5

如图5a所示,针对每个细胞类型特异性基因的基因组区域±3千基对范围内的峰值信号,scATAC-seq轮廓中的表观遗传特征在SANGO预测的细胞类型中显示出明显的峰值富集。例如,兴奋性神经元细胞在其典型标记基因Neurod6上显示出富集的峰值。

通过SNPsea分析计算了单核苷酸多态性(SNPs)在细胞类型特异性峰值集合和背景峰值集合中的组织特异性表达富集。该分析量化了79种组织中组织特异性表达轮廓的富集,揭示了兴奋性神经元在前30种显著富集的组织中的表现,如图5c所示。

SANGO能够揭示特定于细胞类型的共存位点。通过预测顺式调控染色质相互作用(Cicero,见图5d),观察到每个细胞类型特定的顺式调控相互作用。值得注意的是,细胞类型特异性峰值(青色峰值)与细胞类型特异性相互作用的模式很好地对齐,有效减少了在缺乏细胞类型特异性相互作用的基因组区域的假阳性识别。这些结果突显了这些细胞类型特异性峰值在解析顺式调控语法和协同作用中的潜力。

识别基底细胞癌数据中的多级细胞类型

图 6

如图6a-c所示,SANGO将肿瘤细胞识别为“未知”类别,且具有较高的未知概率分数。对于已知细胞类型,大部分免疫细胞和内皮细胞被正确预测,如河流图(图6d)所示。相比之下,成纤维细胞被预测为壁细胞(通常称为周细胞),这可能是由于在肿瘤微环境中周细胞与成纤维细胞之间的强联系。这些结果表明SANGO能有效区分肿瘤细胞和免疫细胞,并将肿瘤细胞识别为未知类型。为了测试在标注亚型的能力,作者使用基底细胞癌中的肿瘤浸润淋巴细胞图谱(BCC-TIL)对合并的免疫细胞进行了标注,该图谱包含了免疫细胞的多种亚型。SANGO在识别免疫亚型方面取得了90%的准确率(图6e, f)。

编译 | 黄海涛

审稿 | 王建民

参考资料

Zeng, Y., Luo, M., Shangguan, N., Shi, P., Feng, J., Xu, J., ... & Yang, Y. (2024). Deciphering cell types by integrating scATAC-seq data with genome sequences. Nature Computational Science, 1-14.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档