目前绝大部分单细胞转录组研究都很少超过20个样品,无论是研究肿瘤和正常对照,转移与否,复发与否或者耐药与否,这个样本量都有点寒酸。
做3个处理3个对照这样的6个单细胞转录组样品就十万块钱人民币了,其实这里面就算找到了两个分组里面的某个单细胞亚群有比例差异也很难有统计学显著性。最后仍然是需要去扩大样品队列做流式细胞术验证目标单细胞亚群,更别说很多亚群其实根本就分辨不出来,无论是第一层次还是第四层次的降维聚类分群,都大受限制。
虽然单细胞转录组目前价格居高不下,但是普通转录组实际上超级实惠了,单个样品几百块钱即可,所以很轻松就有几十个样品甚至好几百样品的队列数据,在公共数据库里面比比皆是。那么,是不是可以把大样品队列的常规转录组项目里面的结论去我们的小样品队列里面去验证,去辅助我们探索表型特异性单细胞亚群呢?如果你也有这样的想法,那么这个工具Scissor不容错过。
参考文献:《Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data》,Sun D, Guan X,---Xia ZNature Biotechnology (2021),目前这个工具是一个在GitHub的R包,欢迎大家使用
这个工具在多种场景下被作者举例验证了其强大,包括:
感兴趣的可以去看原文,这里我们挑选其中3个例子说一下。
研究者首先去下载 tumor and normal phenotypes from 577 TCGA-lung adenocarcinoma (LUAD) bulk samples,分组差异后,作为工具Scissor的输入,处理了一个单细胞数据集,结果如下所示:
肺癌恶性细胞
Among 29,888 cells from differ- ent cell types ,361 Scissor+ cells and 534 Scissor− cells were selected by Scissor, 其中工具Scissor预测阳性也绝大部分是癌症恶性上皮细胞,而预测为阴性主要是髓系和肺泡细胞。因为肺泡上皮由肺泡I型(AT1)和肺泡II型细胞(AT2),这里并没有区分这两个,统一为肺泡上皮细胞。
可以看到工具Scissor的强大之处 :
肺癌判别很好
文章摘要:In melanoma, Scissor discerned a T cell subpopulation with low PDCD1/CTLA4 and high TCF7 expres- sion associated with an immunotherapy response.
同样的,首先需要一个常规转录组队列,分组后差异,这里选择Sade–Feldman’s cohort.对non-responders and responders 两个分组差异后确定 up and down signature genes ,如下所示 :
黑色素瘤特异性免疫治疗差异分析
然后作为工具Scissor的输入,处理了一个单细胞数据集,映射到UMAP visualization of 1,894 melanoma T cells in six clusters. 发现它主要是在第2个T细胞亚群里面富集 :
免疫疗效相关T细胞亚群
这个黑色素瘤特异性免疫治疗反应相关T细胞亚群如果去跟所有的其它T细胞差异分析,可以看到它是T cell subpopulation with low PDCD1/CTLA4 and high TCF7 expression
免疫治疗反应相关T细胞亚群的特性
这里以 facioscapulohumeral muscular dystrophy (FSHD) 为例子,作者选取了3个gse数据集,做差异分析:
bulk转录组的差异分析
确定了差异基因列表后,作为工具Scissor的输入,处理了一个单细胞数据集,如下所示:
bulk的差异辅助单细胞分群
有意思的是 559 of 579 Scissor+ cells (97.5%) origi- nated from patients with FSHD, and nearly 80% of Scissor− cells were from normal samples
值得注意的是作者这里并没有以ROC曲线方式展现,有没有机器学习的混淆矩阵。