伴随着单细胞技术的流行,我们也做了很多福利项目,帮助大家对海量的公共数据集继续普通的标准分析,这样大家可以拿我们的分析结果进行后续个性化深入分析和解读:
这个过程中,我安排工程师们整理了初次接触单细胞的小伙伴拿到了 我们的数据分析标准结果后通常的疑惑点,大家可以看看是否有同感。
答:去掉各种各样的低质量的细胞 。
一般是指细胞的过滤,其实是从一个barcode X gene矩阵中过滤掉一部分不是细胞的barcode,如细胞碎片,双细胞,死细胞等。
同时越想越过滤一些基因,因为上游的表达量矩阵定量过程可能gtf文件里面有五六万基因,实际上每个项目全部的成千上万的细胞也就表达两三万基因。
答:nFeature(总基因数),nCount(总基因表达数)
nCount和nFeature过高可能是双细胞,过低可能是细胞碎片。
总nCount(总基因表达数)越多那么nFeature(总基因数)就应该是高,就是呈现正相关关系,如果不是就需要去探索背后可能的原因。
我们之所以过滤这些,是因为在实际的实验操作过程中,会产生一些细胞杂质的影响,从而导致数据不准确。
但是如果不能确定是数据中的垃圾就先保留下来,因为你去掉的可能是一个重要的基因或重要因素或重要稀有细胞亚群。
基于这个原则,我们就不会过于纠结线粒体阈值到底是20%还是50%,就不会纠结双细胞的阈值该是多少。因为我们质控的目的是去掉不是细胞的东西,不能排除某种状态的细胞,在下游分析中,会成为我们苦苦寻找的那一个。
在单细胞数据科学中数据质控的原则是:质控时贪婪,验证时谨慎,最大限保留数据信息。
关于整不整合数据,时要根据实验设计和单细胞数据本身决定的,其中,在整合数据是为了更好的注释细胞亚群,而不用纠结为什么相同的细胞亚群在UMAP展示的时候相隔千里,当然这可能是因为样本特异性导致的离群细胞亚群。
分群数是不确定的,这个完全取决于数据本身,如果分群数多,后面我们还是要将相同的细胞亚群注释在一起,这无形中增加了注释的难度,所以适当分群,合理的注释将会事倍功半,提升注释效率。
单细胞数据分析过程中,我认为最重要的环节就是细胞亚群的注释,目前有自动化注释的SingleR 包和人工注释,这个就是仁者见仁智者见智的过程,没有好坏只要能注释出你想要的结果都是好结果,还是要说一点,人工注释的准确性会高一点。也就是根据其他文章中的marker gene进行注释,但这个每个领域的专家们的见解不同,会导致相同的细胞在不同的领域具有不同的名字。
答:这个不一定,要根据实际数据来看。但是绝大部分的marker gene都是选取的在特定的单细胞亚群高表达基因,而且本身很多基因就是因为在某个数据集的某个单细胞亚群特异性高表达,才成为了下次分析的这个亚群的marker gene 。