前言
文章题目:Confronting false discoveries in single-cell differential expression 日期:2021-09-28 期刊:Nature Communications 链接:https://www.nature.com/articles/s41467-021-25960-2
使用18个已发表的“金标准”数据集,评测了14个目前常用的差异分析方法,pseudobulks方法要优于single-cell分析方法,指出现在的很多发表的差异分析方法是错误的,会有太多的假阳性
Our findings suggest that many published findings may be false.
目的就是看差异分析方法能不能得到最接近生物学差异的结果,因此作者使用了真实实验得到的数据,而不是模拟的数据。
作者选择数据的标准是:对相同类型的细胞群,使用bulk 和scRNA-seq都可以获得近似的生物结论,两种测序方法进行的处理相同,测序的环境相同
在最近的500篇文献中,有近90%的文献采用了其中的方法(图b)。为了比较每个方法对bulk、scRNA处理的一致性,测定了area under the concordance curve (AUCC) ,其中前6个(也就是常见的edgeR、DESeq2、limma)一致性最好(图c)。它们的逻辑是:先把生物重复的样本整合,形成“pseudobulks”,再进行统计分析,而不是直接进行单个细胞间的比较,这两种逻辑的方法差异还是很明显的(图d)。
简单理解,pseudobulks就是一群vs一群,而single-cell方法就是一个vs一个
既然两种逻辑有差异,那么对后面的生物学功能解释影响大吗?发现也是pseudobulks方法得到的差异基因更贴合真正的生物学通路(图e),比如f这个通路基因在single-cell检验方法中就没有得到
目的是看为什么pseudobulks方法要优于single-cell
图a可以看到,single-cell方法拿到的每个细胞表达量都不高,并且很离散(存在很多0表达量),而pseudobulks进行了一步整合,就大大减少了0表达量的情况(即使某些基因表达量本身就比较低)。所以作者怀疑是基因表达量低,导致single-cell方法不准确。
接下来,作者将基因按照表达量分成了三等份(高中低),然后用和图1一样的AUCC方法测了每一份中bulk 和scRNA-seq一致性。出乎意料,和作者想的相反,表达量低的那组,不同方法结果一致性却是最好的,而表达量高,导致了不同方法结果的一致性下降!(图b)
那么作者又问了:为什么表达量高,却成了single-cell方法的制约因素呢?
作者又基于bulk数据集,找到scRNA数据集中的那些假阳性”差异“基因,而这些被认为是差异基因的”假差异“基因,在single-cell方法中更多是高表达的(图c);接着基于定量的spike-in数据,使用single-cell方法进行鉴定,发现很多高表达的spike-in被误认为是差异基因,相比之下pseudobulk方法没有这个bias(d、e)
作者又想,这个bias是广泛存在的,还是只在这几个数据集呢?
又使用了不同物种、不同细胞类型、不同技术、不同处理的46个scRNA数据集合,发现确实single-cell的bias是广泛存在(f)
目的是看看pseudobulk方法为什么好。
pseudobulk原理是两步走,先进行生物重复的整合。那么这里作者想:如果我先不整合,直接对每个细胞进行接下来的统计分析,效果如何呢?(a就是把原本的生物重复给打散,就是原本不同处理的样本也被随机组合成”生物重复“)
发现效果大打折扣,甚至不如single-cell方法(图b中灰色是不整合,红色是整合)
所以作者想:整合这一步至关重要啊!那么具体怎么整合,这个重要吗?
于是又进行了随机整合生物重复,效果也不理想,所以整合的顺序也是至关重要。
failing to account for biological replicates causes single-cell methods to systematically underestimate the variance of gene expression
有几点重要的结论: