最近出现的多样本多条件单细胞多队列研究使研究人员能够研究不同的细胞状态。近日,《Nature Communications》发表了一种可扩展的算法——scMerge2,允许对图谱规模的多样本多条件单细胞研究进行数据集成。
scMerge2是什么?
scMerge2 提供了一种可扩展的数据集成方法,用于快速增长的多样本、多条件单细胞研究,通过以下三个关键创新实现的(i)层次整合,以捕捉研究之间的局部和全局差异;(ii)pseudo-bulk结构,以确保计算可扩展性;以及(iii)在每个条件内进行pseudo-replication以捕获来自多个条件的信号。本质上,scMerge2从数据集中获取基因表达矩阵,并以分层方式集成它们。scMerge2的最终输出是单个调整后的表达矩阵,所有输入数据矩阵已合并并准备用于下游分析。
scMerge2概述
scMerge2的性能测试
scMerge2算法能够整合来自各种单细胞技术(包括scRNA-seq、CyTOF和成像质谱仪)的单细胞研究的数百万个细胞。利用pseudo-bulk对稳定表达的基因和pseudo-replication进行因子分析,scMerge2能够在一天内整合来自大型COVID-19数据收集的500万个细胞,以及来自全球20项研究的1000多个样本。开发团队进一步证明,使用scMerge2的整合提高了在不同严重程度的COVID-19患者中区分不同细胞状态的性能,并促进了不同的单细胞下游分析。
scMerge2 在检测差异表达方面优于现有的整合方法。
scMerge2可扩展,可集成500万个 COVID-19 PBMC 细胞。
scMerge2支持多条件数据的差异细胞状态检测。
scMerge2 适用于多种单细胞技术平台。
scMerge2 能够对大量单细胞数据进行图谱规模的综合分析。将来,scMerge2可以结合多模态信息更好地识别配对数据的pseudo-replication,并利用特征的高阶关系来提高集成性能。
运行scMerge2的代码是scMerge包的一部分(👉 点击阅读原文访问):https://github.com/SydneyBioX/scMerge.
//
建议对技术细节感兴趣的小伙伴请参考文献原文~
对于文献整理过程中有翻译不当或错误也欢迎大家在评论区留言指出,互相交流学习!
Lin, Y., Cao, Y., Willie, E. et al. Atlas-scale single-cell multi-sample multi-condition data integration using scMerge2. Nat Commun 14, 4272 (2023). https://doi.org/10.1038/s41467-023-39923-2