胃癌单细胞数据集也有十多个了,拿到表达量矩阵后的第一层次降维聚类分群通常是:
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。比如 Clin Cancer Res 2021; 的文章《Spatially Distinct Reprogramming of the Tumor Microenvironment Based On Tumor Invasion in Diffuse-Type Gastric Cancers 》,就是如此的第一层次降维聚类分群:
第一层次降维聚类分群
绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的fibo 和endo进行细分,并且编造生物学故事的。
反而是上皮细胞,大家很少涉及到,但是胃癌既然是来源于胃这样的组织, 它的上皮细胞就不可能是一个纯粹的上皮,理论上是可以细分的。上面的这个文章其实也接下来部分细分,如下所示:
胃这样的组织的上皮细胞细分
也给出来了各个单细胞亚群的基因列表:
当然了,并不是所有的胃癌单细胞数据里面的上皮细胞都是可以细分出来如此多的亚群,比如Zhang M, et al. Gut 2020;文章:《Dissecting transcriptional heterogeneity in primary gastric adenocarcinoma by single cell RNA sequencing》,就是给出来了4个比较清晰的胃上皮细胞小亚群( 4776 non-malignant epithelial cells ) :
4个比较清晰的胃上皮细胞小亚群
有意思的是这个数据集的细胞数量是前面的数据集的4倍,但是细胞亚群数量并不是更多。
我把十多个胃癌单细胞数据集都处理了一遍,最后选择了2019的Cell Reports 文章:《Dissecting the Single-Cell Transcriptome Network Underlying Gastric Premalignant Lesions and Early Gastric Cancer》里面的各个胃上皮单细胞亚群的基因分享给大家:
各个胃上皮单细胞亚群的基因
代码如下所示:
library(ggplot2)
genes_to_check = c('PTPRC',
'MUC2' , 'ITLN1',
'FABP1' , 'APOA1',
'CEACAM5' , 'CEACAM6',
'EPCAM', 'KRT18', 'MUC1',
'MUC6' , 'TFF2',
'PGA4' , 'PGA3',
'MUC5AC' , 'TFF1','CHGA' , 'CHGB')
library(stringr)
p_all_markers <- DotPlot(sce.all, features = genes_to_check ) + coord_flip()
p_all_markers
ggsave(plot=p_all_markers,
filename="check_gastric_marker.pdf")
需要背诵的基因和单细胞亚群对应关系,如下所示;
# goblet cells (MUC2 and ITLN1)
# enterocytes (FABP1 and APOA1),
# tumor markers (CEACAM5 and CEACAM6
# epithelial cells (EPCAM, KRT18, and MUC1)
# antral basal gland mucous cells (GMCs, marked as MUC6 and TFF2),
# pit mucous cells (PMCs, marked as MUC5AC and TFF1),
# chief cells (PGA4 and PGA3),
# enteroendocrine cells (CHGA and CHGB)
有了这些基因,就可以很容易给细胞亚群进行命名:
给细胞亚群进行命名
所以之前我们统称为上皮细胞的那些单细胞亚群,现在就可以进行细致的重新给名字啦
celltype[celltype$ClusterID %in% c( 0:5,7,9,11,12,14,15),2]='epi'
celltype[celltype$ClusterID %in% c( 17),2]='goblet' # (MUC2 and ITLN1)
celltype[celltype$ClusterID %in% c(11),2]='enterocytes' # (FABP1 and APOA1)
celltype[celltype$ClusterID %in% c( 7),2]='GMCs' # antral basal gland mucous cells (
celltype[celltype$ClusterID %in% c(0,12),2]='PMCs' # pit mucous cells
celltype[celltype$ClusterID %in% c(9,15),2]='enteroendocrine' # (CHGA and CHGB)
当然了,这样的生物学认知还需要自己深入这个领域。
我给几个数据集给大家,去试试看,能不能从里面把上皮细胞拿出来,并且进行细分亚群,看看能不能有上面列出来的亚群。
其实这样的基础认知,也可以看基础10讲:
最基础的往往是降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释