前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >单细胞工具 | SnapATAC2:快速、可扩展、多功能的单细胞组学数据分析工具

单细胞工具 | SnapATAC2:快速、可扩展、多功能的单细胞组学数据分析工具

作者头像
尐尐呅
发布2024-01-29 12:31:56
2850
发布2024-01-29 12:31:56
举报

单细胞数据低维嵌入是分解细胞异质性和重建细胞类型特异性基因调控程序所必需的。然而,传统的降维技术在计算效率和全面解决不同分子模式的细胞多样性方面面临挑战。2024年1月,Nature Methods发表了一种非线性降维算法——SnapATAC2,不仅实现了对单细胞组学数据异构性的更精确捕获,而且还确保了高效的运行时间和内存使用,随细胞数线性扩展。

SnapATAC2是什么?

SnapATAC2是一种非线性降维算法,该算法在从广泛的单细胞组学数据类型中辨别复杂组织的细胞组成时,既能提高计算效率,又能保证准确性。其关键创新点是使用无矩阵光谱嵌入算法将单细胞组学数据投射到低维空间,从而保留了基础数据的固有几何特性。传统的光谱嵌入方法需要构建图拉普拉斯矩阵,这一过程所需的存储空间与细胞数量成二次方增长。

SnapATAC2 Python包概述,包括四个主要模块:预处理、嵌入/聚类、功能丰富分析和多模式分析

SnapATAC2的性能测试

为了评估SnapATAC2的准确性和实用性,开发团队使用各种数据集进行了广泛的基准测试,这些数据集包括不同的实验方案、物种和组织类型。结果表明,在解决细胞异质性方面,无矩阵谱嵌入算法在速度、可扩展性和精度方面优于现有方法。此外,SnapATAC2可以扩展到单细胞组学数据集的不同分子模式,通过利用不同单细胞组组学数据类型的互补信息来揭示细胞异质性。

提升计算性能,降低计算成本

运行时间:随着数据集中细胞数量的增加,SnapATAC2 以及 ArchR、Signac 和 EpiScanpy 的运行时间增加最少;

内存效率:仅需要21GB内存即可处理200,000个细胞;

计算成本:在92个scATAC-seq样本、约650,000个细胞、超过230亿条原始读数,总数据量为1.6TB的数据规模下,SnapATAC2的速度比ArchR快近三倍,计算成本大约降低了 63.4%。

SnapATAC2性能测试结果

对于各种噪声水平和测序深度都具有鲁棒性

SnapATAC2 在不同的测序深度上始终优于其他方法,获得了最高的ARI分数;SnapATAC2 在所有检查的噪声水平上均获得了完美的 ARI 分数 (1.0)。

SnapATAC2的降维算法对各种噪声水平和测序深度都很稳定

在真实scATAC-seq 数据集测试中性能稳定

平均而言,SnapATAC2在所有10个数据集中获得了最高的bio-conservation scores,其次是PeakVI、cisTopic 和 scBasset。除了在细胞类型识别方面表现出色之外,SnapATAC2 还具有优于其他高性能方法的优势:SnapATAC2无需GPU等专用硬件即可运行,所需的计算时间大幅减少,在不同数据集上保持稳健的性能,且无需进行大量的超参数调整。

使用带有细胞标签的真实scATAC-seq数据对SnapATAT2和其他降维算法进行基准测试

SnapATAC2适用于多种组学数据类型

SnapATAC2是一种通用且有效的方法,可用于分析各种单细胞数据类型,包括scATAC-seq、scHi-C、scRNA-seq和单细胞DNA甲基化数据。其展示了与现有方法相当或更好的性能,同时提供了实际优势,例如减少运行时常和不需要专门的硬件。

SnapATAC2在scHi-C和scRNA-seq数据集上表现出优于其他方法的性能

SnapATAC2支持多组学数据的联合嵌入

多组学数据结果验证了SnapATAC2 不仅在bio-conservation quality方面,而且在计算效率方面的卓越性能,使其成为分析复杂单细胞多组学数据的高度稳健和可扩展的解决方案。

SnapATAC2支持单细胞多组学数据的稳健联合嵌入

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-01-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 国家基因库大数据平台 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档