都介绍到单细胞转录组数据处理之细胞亚群比例比较部分了,10讲就告一段落了,大家可以回看仔细品读。后面的分析其实都是个性化的了,取决于课题设计,假说,生物学背景知识,而且需要学习大量的R包。
既然是个性化分析,理论上就是无穷无尽的,而且我在 有一种生意双方都觉得亏 提到过,专业的工程师觉得为客户学习一个R包收费2000合情合理,但是委托者觉得一个项目全套分析收2000才合理。也就是说大部分情况下,大家自己的课题的个性化需求,是很难找到合适的合作者来代替你完成的,不得不学习多种多样的R包算法,而且通常是找不到交流者。
我们就以中山大学的最新研究《一个人的15个器官单细胞测序数据 》,链接是:https://www.biorxiv.org/content/10.1101/2020.03.18.996975v1.full.pdf 为例子,看看多少种个性化分析吧。
通常是monocle流程,也可以是diffusion map等等,我们以前其实分享过很多教程了。
monocle流程的拟时序分析
在文章里面主要是figures4F,图例是:
F. Pseudo-time trajectory analysis of all myeloid cells with high variable genes.
如下:
主要是在figures5D-E,图例是:D, E. Gene Ontology enrichment analysis results of each epithelial cell cluster in digestive organs (D) and non-digestive organs (E). Cell clustered as numbered below were colored according to their -log10P values. Only the top 20 significant terms (p-value < 0.05) were shown.
这个虽然是个性化分析,但是在常规转录组里面已经烂大街了,需要注意的是GO和KEGG等生物学数据库条目非常多,如果生物学背景不够,大部分情况下是出图后就无动于衷。
比如这篇文章就是有偏向的关注 GO Biological Processes ,而不是CC或者MF,甚至也不是KEGG数据库。
该工具算法正式发表于26 February 2020 ,链接是:https://www.nature.com/articles/s41596-020-0292-x ,代码在 https://github.com/Teichlab/cellphonedb ,流行程度尚可,所以写关于它教程的很多。
重要就是给11种主要的细胞亚群,进行关系配对的计算。
Numbers in red indicate the counts of ligand-receptor pairs for each intercellular link.
SCENIC
发表要早于前面的CellphoneDB,是2017年的Nature methods文章,链接: https://www.nature.com/articles/nmeth.4463 主要是根据表达矩阵来计算每个细胞可能的调控基因。
图例是:F. Heatmap of the active scores of epithelial cell subtypes as numbered on top, of which expression was regulated by transcription factors (TFs), as estimated using SCENIC analysis.
Shown are the top 10 TFs having the highest difference in expression regulation estimates between each cluster and all other cells, tested with a Wilcoxon rank-sum test.
另外一个关于 myeloid cell subtype 的SCENIC分析结果如下: