项目地址:https://github.com/kaizhang/SnapATAC2/
文章:A fast, scalable and versatile tool for analysis of single-cell omics data (2024 nature methods )https://www.nature.com/articles/s41592-023-02139-9
研究人员开发了一种非线性降维算法,应用在Python软件包SnapATAC2中,该算法能更精确地捕捉单细胞组学数据的异质性,同时确保高效的运行时间和内存使用,使得它们与细胞数量成线性比例。
具体而言,SnapATAC2包括四个主要部分:预处理、嵌入/聚类、功能富集分析和多组学分析。该包使用Rust编程语言,并提供Python接口。此外,SnapATAC2还支持on-disk data structures 以及 out-of-core algorithms,以便更好地处理大规模数据集而不会过分消耗系统资源。该工具还允许用户根据需要定制分析并与其他软件包进行集成。
算法的性能还通过在各种数据集上的广泛基准测试得到验证,结果表明SnapATAC2在速度、可扩展性和细胞异质性解析方面优于现有方法。
以及对比了ArchR 和 SnapATAC2 对92个 scATAC-seq 实验数据得到的 BAM 文件从头分析的时间对比:
SnapATAC2 的降维算法对于各种噪声水平和测序深度都具有鲁棒性:
Adjusted Rand index (ARI) measures the similarity between two data clusterings and has been routinely used to assess the performance of clustering algorithms