前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NC | scRNA-seq数据跨物种整合算法的基准测试和策略指南

NC | scRNA-seq数据跨物种整合算法的基准测试和策略指南

作者头像
尐尐呅
发布2024-01-17 14:50:14
2220
发布2024-01-17 14:50:14
举报

来自不同物种的单细胞基因表达数据集越来越多,这为探索跨物种细胞类型之间的进化关系创造了机会。scRNA-seq数据的跨物种整合尤其具有参考价值。2023年10月,Nature Communications》发表研究论文,对28种基因同源性图谱方法和数据整合算法组合在各种生物环境中的表现进行了基准测试。使用9个已确立的指标,考察了每种策略对已知同源细胞类型进行物种混合和保持生物异质性的能力。同时还开发了一种新的生物学保护指标,以解决维持细胞类型可区分性的问题。

研究团队开发了scRNA-seq数据跨物种整合策略(BENGAL)流程,对28种跨物种单细胞转录组学数据整合策略进行了基准测试,包括4种通过同源性进行跨物种基因匹配的方法和10种整合算法。基于一致的细胞类型同源性和统一的本体标注,使用4个指标来评价物种混合程度,6个指标来评价生物保护程度。

BENGAL流程示意图

scANVI、scVI和SeuratV4方法实现了物种混合和生物保护之间的平衡。对于进化上距离较远的物种,包括旁系同源物种是有益的。SAMap在整合具有挑战性的基因同源性注释的物种之间的全身图谱时表现出色。

跨物种分析中不同整合策略的基准得分和指标:scANVI、scVI、SeuratV4 CCA、SeuratV4 RPCA、Harmony 和 fastMNN 全面表现良好。

整合后细胞类型可区分性的损失通过细胞类型自投影的准确性损失(ALCS)来测量:LIGER、LIGER UINMF 和 fastMNN 的 ALCS 明显更高;当跨物种整合的目标是揭示细胞类型同源性时,选择 ALCS 较低的方法非常重要,以便基于整合嵌入得出对细胞类型相似性的正确解释。

人、小鼠胰腺与人、恒河猴、猪海马-内嗅系统的整合结果:Harmony、fastMNN、scANVI、scVI、SeuratV4 CCA、SeuratV4 RPCA 和 SAMap 都能够整合数据,而 scanorama、LIGER 和 LIGER UNIMF 则无法整合一些同源细胞类型对。

爪蟾和斑马鱼胚胎发育的整合:与未整合数据相比获得更高综合得分的算法包括 scVI/scANVI、SeuratV4方法和Harmony;当整合基因同源性注释较少的物种时,SAMap 可以在成功整合数据时保留更完整的细胞表达谱。

整合人类、长尾猕猴、小鼠、爪蟾和斑马鱼的心脏组织:整合后,scANVI 达到了最高综合得分;SeuratV4 RPCA 方法在四项任务中给出了最高的物种混合得分 ;对于大多数策略,广泛观察到 ALCS 随着物种的添加而增加。

基于本研究中调查的多种跨物种整合场景,研究团队提供了以下关于选择最合适的跨物种整合算法的指南

> 对于密切相关的物种,scVI(当有可靠的细胞类型注释可用时为 scANVI)或 Harmony 在保持生物异质性的同时进行物种混合。

> 对于相对较远的物种,SeuratV4方法可以实现强物种混合,并且对于较大的数据集,RPCA 比 CCA 更具可扩展性。

> 对于全身图谱的整合或缺乏完善的基因同源性注释的物种之间的整合,SAMap 擅长通过解决基因同源性作图挑战来对齐同源细胞类型。

> 对于共享大量一对多和多对多直系同源物的物种,将它们纳入分析可以改善整合,因为它们保留了更多关于细胞类型表达谱的信息。

> 值得注意的是,scRNA-seq数据的实际整合对于已经分化到一定程度的物种(例如来自同一门的物种)最为有利。根据心脏的例子得出结论,当非哺乳动物与哺乳动物之间进行数据集成时,结果仍然可以作为细胞类型注释转移的基础,但由于生物学特性的强烈缺失,嵌入并不适合进行从头聚类分析。对于距离非常遥远的物种,细胞类型标记基因的相关分析等替代方法可能更为合适。

研究团队还提供了以下免费可用的工具:

1)BENGAL,用于跨物种scRNA-seq数据整合和整合结果评估的Nextflow流程;

👉 https://github.com/Functional-Genomics/BENGAL

2)ALCS,一种以跨物种整合为重点的生物学保护指标,用于量化细胞类型可区分性的损失;

3)scOntoMatch是一个R包,用于帮助调整不同数据集的细胞本体注释粒度。

👉 https://cran.r-project.org/web/packages/scOntoMatch/index.html

//

建议对技术细节感兴趣的小伙伴请参考文献原文~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-01-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 国家基因库大数据平台 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据集成
数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档