单细胞数据通常是从多次实验中得来。不同平台的数据、同一平台的不同时期的数据、同一个样品不同试剂的数据、同一个样品不同时间的数据、同一个样本不同设备的数据等都会产生批次效应。批次效应会导致不同条件下的差异,而这种差异与生物学和技术差异无关。如果批次效应广泛存在,就可能会忽略重要的生物学变化。所以,需要找到一种有效的方法去除批次效应。
这里,我们使用了Harmony、Seurat3、fastMNN、mnnCorrect四种不同的去除批次效应的方法,对三个数据集进行了处理,并与未处理的结果进行了比较。三个数据集包括:细胞类型相同的不同样本、细胞类型差异不是很大的不同样本、细胞类型存在较大差异的不同样本。去除批次效应后,使用了kBET方法对结果中样本所共有的细胞类型进行评估,评价不同去除批次效应软件的效果。
方法介绍
(1)Harmony
Harmony使用一种迭代聚类的方法,找到一个细胞特异性线性校正函数。首先,将不同批次中的数据整合,使用PCA降维后进入迭代过程。每一次迭代包括四个步骤:首先使用一种新开发的k-means软聚类方法聚类,将每个细胞分给多个潜在的类别,然后计算出每个类别中的质心和每个类别中每个批次的质心;其次,根据质心计算出细胞特异性的线性校正因子;最后,每个细胞可以根据每个类别的加权平均得到一个线性校正因子,因为每个细胞属于多个类别,所以每个细胞都有不同的校正因子。
(2)mnnCorrect
mnnCorrect通过寻找批次间的最小互近邻(mutual nearest neighbor, MNN),即批次间相似类型的细胞在批次间共有的邻居,再根据这些细胞对计算批次效应,用于后续校正。mnnCorrect使用余弦归一化来标准化数据,然后计算MNN细胞对之间的欧氏距离,最后将计算出的批次效应向量应用于所有细胞。mnnCorrect要求所有批次之间至少共享一种细胞类型。此外,mnnCorrect假定存在的批次效应较小且与生物变异正交。
(3)fastMNN
fastMNN在PCA空间上寻找最小互近邻,然后再进行校正。
(4)Seurat3
Seurat3使用典型相关分析(canonical correlation analysis, CCA)进行降维,然后在标准化CCA空间寻找最小互近邻(被称为锚,anchors)。为避免非相似细胞间异常锚的产生,使用SNN来评估细胞类型的相似性。与MNN类似,使用细胞间的差异表达计算校正因子。
(5)kBET
如图所示,如果重复性实验数据混合良好,单细胞转录组数据的任意子集与总数据集将拥有同样的批次标签分布,相反批次标签分布则会不同。kBET(k-nearest-neighbor batch-effect test )对固定大小的随机邻域使用卡方检验确定其是否混合良好。首先,kBET创建了kNN矩阵并且选择了10%的样本检查批次标签的分布。当局部批次标签分布与全局批次标签分布足够相似时,卡方检验不会拒绝原假设(即所有批次混合均匀),检验将会为每个测试样本反馈结果。最后,kBET的结果以平均检验拒绝率作为评估标准,拒绝率越低,批次效应引入的偏差就越小。在本文中,对共有的细胞类型进行了kBET检验,并使用接受率(即1-拒绝率)作为评估标准。
细胞类型相同的不同样本
在人肾脏数据集中,所有样本之间所有的细胞类型都相同,包括Proximal tubule cells、Proximal convoluted tubule cells、Proximal straight tubule、Monocytes等11种细胞。用四种去批次效应软件分别对其进行处理,结果如下:
(1)未处理
(2)Harmony
(3)Seurat3
(4)fastMNN
(5)mnnCorrect
从细胞类型分群和注释结果中可以看出,未去除批次效应时,Proximal tubule cells、Proximal convoluted tubule cells、Proximal straight tubule以及Glomerular parietal epithelial cells具有明显的批次效应,尤其是Proximal tubule cells、Proximal convoluted tubule cells和Glomerular parietal epithelial cells。
除了Harmony方法,其余三种方法在去除批次效应之后,Proximal tubule cells、Proximal convoluted tubule cells和Glomerular parietal epithelial cells三种细胞类型的样本间差异依然很大,1号样本与2、3号两个样本之间的差异尤为明显。此外,fastMNN和mnnCorrect方法都无法将Collecting duct principal cells区分开。
未处理时无法从1号样本中检测到Proximal tubule cells,而在其余处理方式中,均可从1号样本中识别出该类型细胞,甚至在Harmony处理结果中,该类型细胞的占比明显高于其他所有处理方式,但Glomerular parietal epithelial cells占比明显减小。
对所有的细胞类型都进行了kBET分析,结果发现Harmony方法改善了除Collecting duct principal cells类型以外的所有细胞类型样本间的差异,去除批次效应的效果最好。
细胞类型差异不是很大的样本
人膀胱数据集中的三个样本,共有Intermediate cells、Fibroblasts、Myofibroblasts、Endothelial cells、Monocytes、T cells六种细胞类型。Umbrella cells只在2、3号两个样本中存在,SMC只在1、2号两个样本中存在。以下为四种去除批次效应软件处理后以及未进行处理的结果比较:
(1)未处理
(2)Harmony
(3)Seurat3
(4)fastMNN
(5)mnnCorrect
从细胞类型和分群结果中可以看出,未去除批次效应时,所有的细胞类型都具有明显的批次效应,尤其是Fibroblasts细胞,通过样本着色的降维图可以看出,由于样本间差异导致其降维图明显分割成了两个部分。此外,fastMNN没有将B cells和T cells区分开来。
对于Basal cells,未处理时的结果表明其基本都属于3号样本,然而在去除批次效应后,除mnnCorrect方法外,其余三种方法都从2号样本中识别出Basal cells,但fastMNN识别出的比例相对Harmony和Seurat3少很多。
TNNT1+epithelial cells在未处理、Harmony、fastMNN、mnnCorrect处理时,只在2号样本中被识别出。但使用Seurat3处理时,也在3号样本中识别出少量该类型细胞,并且2号样本中该类型细胞的比例明显减少。SMC只在Harmony处理时从2号样本中被识别出,其余均只在1、3号样本中识别出。
对于六种共有的细胞类型,在没有去除批次效应时,这些类型都有较明显的样本间差异,通过kBET对去除批次效应前后的结果进行评估,Harmony方法减小了除Myofibroblasts以外的样本间差异,取得了最好的效果,其次是Seurat3和fastMNN。mnnCorrect在各个细胞类型中的处理结果均不如其他方法,甚至在Myobriblasts和T cells两种细胞类型中,处理后的批次效应略大于未处理的,效果最差。
细胞类型存在较大差异的样本
人肺数据集的四个样本中,共有的细胞类型大致为Epithelial cells、Dentritic cells、Macrophages这三种,其中Epithelial cells在癌症组织与癌旁组织中各自占有一部分。用四种软件对此数据集进行去批次效应处理,结果如下:
(1)未处理
(2)Harmony
(3)Seurat3
(4)fastMNN
(5)mnnCorrect
从细胞分群和注释结果来看,对于Epithelial cells,因为样本分为癌症与癌旁的原因,样本间差异明显。未进行处理、Harmony、fastMNN、mnnCorrect处理时,样本中Epithelial cells在降维图中都被分成了比较明显的几部分,但是Seurat3却将具有生物学差异的癌症与癌旁Epithelial cells混合在一起。Dentritic cells和Macrophages这两种细胞在去除批次效应后,细胞的混合程度明显增加。
未处理时,Macrophages由于样本间差异在降维图中被分成了两部分,去除批次效应后均有一定程度的混合。此外,Seurat3处理的结果显示CD8+ T cells在降维图中被分成了两部分,而免疫细胞与上皮细胞在降维图中不似其他处理方法相隔较远,而是离得比较近。
比较各个样本内细胞占比发现,只有Seurat3从2号癌旁样本中识别出了较高比例的上皮细胞,其他处理方法识别出的细胞数量较少。
只对共有的三种细胞进行kBET分析,总体来看(但是由于上皮细胞不是样本间差异导致的,所以评估可能存在问题),对于这三种共有的细胞类型,Harmony的效果最好,然后是fastMNN、Seurat3、mnnCorrect。
结语
经过三个数据集的比较分析,效果最好的是Harmony,最差的是mnnCorrect,这可能与四种方法的原理有关。因此,我们最推荐使用Harmony的方法进行去除批次效应。
另外,还存在肿瘤异质性与批次差异的问题。当肿瘤细胞中存在正常细胞时,用任何一种去除批次的方式都有可能会出现无法分出肿瘤细胞的情况。因此,做好实验设计的同时,也要避免实验过程中可控因素带来的样本间差异。
从纷繁复杂的单细胞数据中发掘出关键信息是单细胞研究的重中之重,而分析方法的选择决定了数据结果的好坏。