在单细胞测序数据分析中,对细胞进行准确分类是数据分析的重要基础。在利用聚类算法将细胞进行分组后,需要通过鉴定不同细胞群特异表达的标记基因来注释细胞类型。同时,细胞标记基因在所有细胞类群中的表达模式也能够帮助判断聚类、标准化、批次效应校正等分析结果的准确性,进而进行参数优化。然而,如何准确鉴定不同细胞类型的细胞标记基因 (cell marker gene)仍面临巨大的挑战。
2022年1月19日,中国科学院遗传与发育生物学研究所的王秀杰研究组联合华中科技大学软件学院的裴小兵研究组在生物信息学期刊Briefings in Bioinformatics
在线发表了题为Accurate and fast cell marker gene identification with COSG
的研究成果,提出了一种基于余弦相似度的方法COSG
,该方法能在单细胞RNA测序数据、单细胞ATAC测序数据和空间转录组数据中更准确和快速地鉴定出细胞标记基因。
细胞标记基因鉴定需要准确找出在目标细胞类群中具有表达特异性的基因。目前常用的细胞标记基因鉴定方法通常基于统计分析来鉴定在目标细胞类群和其余细胞之间存在表达差异的基因,并以此作为目标细胞类群的标记基因【1-2】,例如目前最为常用的标记基因鉴定方法Wilcoxon test【3-6】。然而,当比较一种类型的细胞和其余多种类型细胞时,统计学方法选择的差异表达基因有时并不是真正的细胞标记基因,因此无法保证鉴定得到的细胞标记基因在目标类群细胞中存在表达特异性。例如,仅在目标细胞和一小群非目标细胞中高度表达,而在其他细胞中不表达的基因会被基于差异表达分析的统计方法选为目标细胞的标记基因,但这样的基因并不具备细胞类型特异表达性。值得注意的是,基于差异表达分析的统计方法是大多数单细胞数据分析工具包中默认的细胞标记基因鉴定方法,包括常用的Scanpy【7】和Seurat【8】。此外,随着单细胞RNA测序技术的完善和普及,每次实验捕获的细胞数量迅速增加【9】,目前可用的细胞标记基因鉴定方法在处理包含大量细胞的数据时往往存在运算速度慢的问题。随着单细胞ATAC测序技术和空间转录组测序技术的发展,也越来越需要一种能够从不同类型测序数据中鉴定细胞标记基因的通用方法。
为解决上述问题,王秀杰组联合裴小兵组开发了基于余弦相似度的COSG
算法,其核心思想是通过比较基因在n维细胞空间的向量夹角大小来描述基因在所有细胞中表达模式的相似性 (图1a)。在细胞空间内,每个维度代表一个细胞,每个基因在n维细胞空间内所对应的向量由n
个基 (basis
)组成,其中n
为总细胞数。基因在每个基上的坐标代表该基因在每个细胞中的表达水平。因此,在n
维细胞空间中,两个基因的余弦相似度等价于这两个基因所对应向量的夹角的余弦值。基因在所有细胞上的表达模式越相似,其对应向量的夹角也就越小。如果两个基因有相同的表达模式,那么无论它们的表达丰度是否存在差异,这两个基因所对应的向量之间的夹角为零。因此,余弦相似度的计算不受基因表达丰度值的影响【10】。同时,由于单细胞测序数据具有稀疏性 (包含大量零值)的特点,而余弦相似度对稀疏矩阵的计算非常高效,所以COSG能够更有效地鉴定出目标细胞类群中特异表达的基因。
在模拟数据和真实实验数据集上的评测结果表明,COSG鉴定出的标记基因或标记基因组区域具有更好的细胞类型特异性。同时,COSG具有很好的计算效率和可扩展性,能应用于超过百万细胞的大规模数据集,并在不到2分钟的时间内鉴定出超过100万个细胞的细胞标记基因,表明COSG相比于其他现有方法在准确性和计算效率上具有明显优势 (图1)。
图1. COSG的计算流程和评测结果。(a) COSG的计算流程。(b) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG四种方法鉴定得到的RGL细胞前10个标记基因的富集得分比较。(c) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG在三个不同单细胞ATAC测序数据集上的运行时间比较。(d) Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG
鉴定得到的心脏成纤维细胞的前3个标记基因的表达模式。
除了单细胞RNA测序数据,COSG
还能够有效应用于单细胞ATAC测序数据和空间转录组数据。不同数据类型包含不同特点,例如单细胞ATAC测序数据相比于单细胞RNA测序数据有着更低的测序深度,同时包含更多的特征,而空间转录组数据中每个检测位点 (spot)中往往包含属于多个细胞类型的细胞,给细胞类型鉴定带来更大的挑战。实验结果表明,COSG
对不同类型数据细胞标记基因鉴定的准确性均优于其他方法 (图2)。
图2. Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE)和COSG在10x Genomics Visium的小鼠大脑空间转录组数据集上细胞标记基因鉴定效果的比较。(a) 10x Genomics Visium空间转录组从成年小鼠脑矢状面后部组织中检测到的3,355个信号位点的聚类结果。不同颜色代表不同的细胞分组。(b) UMAP投影展示(a)中的信号位点。不同颜色代表不同的细胞分组。(c)表达气泡图展示Logistic regression、Wilcoxon-test、Wilcoxon-test (TIE) 和COSG
四种方法鉴定得到的每个细胞类型的前3个细胞标记基因在所有细胞分组中的表达模式。
COSG程序的代码已通过GitHub网站开源发布。COSG程序的Python语言版本和R语言版本的代码链接分别为https://github.com/genecell/COSG
和https://github.com/genecell/COSGR
,并且可以很方便地整合到常用的单细胞数据分析软件Scanpy【8】和Seurat【9】中。中国科学院遗传与发育生物学研究所王秀杰研究组的博士研究生戴敏为该论文的第一作者,中国科学院遗传与发育生物学研究所王秀杰研究员、华中科技大学软件学院的裴小兵教授为论文的共同通讯作者。
原文链接:https://doi.org/10.1093/bib/bbab579 (点击阅读原文直达)
参考文献