单细胞测序技术作为生物学研究的前沿技术,在科研、临床等方面发挥越来越重要的作用。相对于bulk转录组测序,单细胞测序具有更高的噪声水平。
单细胞测序时,有些基因表达量较低而无法完全被检测到,这种由技术造成的检测基因表达数据不真实的情况被称为dropout效应。与此同时,在细胞中有些基因确实没有表达,我们称之为真零值。在测序结果中,往往混杂着由于dropout效应造成的零值和真零值。
区分真零值和dropout效应造成的零值,降低技术噪音,对于单细胞测序数据后续分析具有较为重要的作用。但是这一方法也存在副作用,即其在进行数据预测填补的过程中会引入一些假阳性结果。
目前,已经有多种软件可以对单细胞测序数据进行预测和填补,其中主要原理是通过数据内部的信息,处理被软件判断为dropout效应造成的零值。一篇发表在F1000Research的文章选择了六种imputation相关的软件进行了相关评测,分为是scImpute、SAVER、DrImpute、MAGIC、dca以及knn-smoothing。
https://doi.org/10.12688/f1000research.16613.2
不同软件的比较
作者首先使用依据负二项分布模型模拟的数据进行测试,主要检测了软件引入的基因间假阳性的情况。与没有进行填补的数据相比,除了SAVER,其他几种软件皆引入了一些假阳性结果,对于其他几种模拟数据的检测也类似。
对于真实的测序数据,其表现更加多变。作者选取了Smart-seq2以及10X产生的不同组织的测序数据进行测试。在每个数据集中选取两个细胞类型,从其中选出没有表达差异的基因,如果这些基因在处理后产生表达差异则记为假阳性。
dca、knn-smoothing以及MAGIC产生更高的假阳性结果,在20~80%之间。而其余三者在不同数据中表现差异较大,对于同一软件,在某些数据集中只产生极低比率的假阳性结果,而在其他一些数据集中产生了90%以上的假阳性。文章结果指出,SAVER引入较少的假阳性和不可重复的结果,在需要进行数据填补时推荐优先使用该软件。
两种软件的测试
针对文章中提到的软件,挑选了其中scImpute和SAVER进行分群测试。测试数据为2019年发表于Journal of Amercian Society of Nephrology上的Single-Cell Transcriptomic Map of the Human and Mouse Bladders中人膀胱的部分数据。
对原始数据使用Seurat V3进行分析并且绘制UMAP图,使用scImpute和SAVER分别处理原始数据,随后按照常规流程进行分析作图。
UMAP图显示,三种数据分析作图后,各细胞类型比例存在变化,特别是scImpute处理后的数据中Basal_cells所占比例变化较为明显。在原始数据中,Fibroblasts有分为两类细胞群的趋势,而在两种软件处理后,Fibroblasts完全分成了两部分。对于其他细胞类型来说,分群效果与原始数据分群效果相似。
三者的marker gene表达dotplot图显示,相对于原始数据,其marker gene的差异表达依旧明显。在软件处理后,基因的表达比例变化明显,SAVER处理后数据的基因表达比例都提高,而scImpute的表达比例提升情况参差不齐。
从细胞比例的角度来看,不管是SAVER还是scImpute,都会使细胞比例出现较为明显的变化,例如在SAVER处理后,P1中原有的Basal_cells比例下降至极低水平,这种情况在scImpute处理数据中也有出现。
之后,我们将原始数据中的细胞ID以及对应的细胞类型信息提取出来,对处理后的数据进行注释。根据注释结果,两个软件处理后数据的分群情况与原始数据大致相同,有部分细胞类型出现了相互混杂的情况,比如Basal_cells与Intermediate_cells,但不明显。而通过原始数据的标注发现,在处理后Fibroblasts确实被分为了两个部分。
数据填补软件是单细胞转录组数据可视化的有效工具,它扩大了数据原有的结构。但软件的使用会引入一些表达差异或者基因间相关性上的假阳性结果,且不同软件在不同情况下表现也不尽相同,一般不推荐使用这种依赖于算法来填补矩阵的方法。