前面我们探索了:癌症和癌旁的差异基因能在单细胞层面区分上皮细胞的恶性与否吗,是直接使用了作者给出来了的基因列表。具体方法学是:去tcga数据库里面定位到胃癌的转录组测序数据集,然后根据分组做癌症和癌旁的差异分析后,拿到上下调各自的top50基因列表。
实际上,如果是为了拿到bulk层面的癌症和癌旁的表达量,有非常多的选择,不仅仅是去tcga数据库里面定位到胃癌的转录组测序数据集,可以是geo数据库的转录组测序,也可以是geo数据库的表达量芯片数据集,都是bulk层面的。在癌症和癌旁的差异基因能在单细胞层面区分上皮细胞的恶性与否吗 我们就举例了一个RRA算法,它汇总了9个不同的表达量芯片数据集,都是胃癌和癌旁的差异分析。
我们这里拿GSE54129作为案例,是很清晰的两分组(癌症和癌旁):
常规差异分析的质量控制和上下调基因火山图和热图如下所示:

统计学显著的基因,上下调各自都有一千多,可以去富集分析到go和kegg数据库,其中上调基因主要是 "Focal adhesion" 和 "ECM-receptor interaction" :
cut -d"," -f 5-8 KEGG_up.csv|head
"Description","GeneRatio","BgRatio","pvalue"
"Cytoskeleton in muscle cells","59/580","232/8844",2.0201262697303e-20
"Focal adhesion","50/580","203/8844",8.10067899795885e-17
"Complement and coagulation cascades","27/580","88/8844",4.73686044082476e-12
"AGE-RAGE signaling pathway in diabetic complications","28/580","101/8844",2.89660862481335e-11
"Amoebiasis","28/580","103/8844",4.83942103773697e-11
"Malaria","19/580","50/8844",1.10389658171616e-10
"Proteoglycans in cancer","40/580","204/8844",2.43683140328288e-10
"ECM-receptor interaction","25/580","89/8844",2.48239238345182e-10
"Rheumatoid arthritis","25/580","94/8844",8.87473649832924e-10
我们可以问一下人工智能大模型:做癌症和癌旁组织的表达量芯片的差异分析,上下调基因可能的来源是什么?
在进行癌症与癌旁组织表达量芯片的差异分析时,上下调基因可能来源于多种生物学机制:
通过差异分析,研究者可以识别在癌症组织中特异性表达的基因,这些基因可能在肿瘤的发生、发展、转移和预后中发挥重要作用。进一步的研究可以探索这些差异表达基因的功能,为癌症的诊断和治疗提供潜在的靶点。
因为我们的差异分析结果里面上调基因主要是 "Focal adhesion" 和 "ECM-receptor interaction" 这两个生物学功能,所以我们可以合理的猜测,是这两个通路对应的单细胞亚群比例在癌症样品的上升。如果胃癌相对于正常的胃组织来说大量浸润了内皮细胞和成纤维细胞,那么这两个单细胞亚群的特异性基因当然是会体现出来bulk层面的癌症和癌旁的表达量。
当然了,也有可能是这两个通路的恶性失调,同样的,我们可以问一下人工智能大模型:我们的上下调基因如何区分它的来源呢,是细胞比例改变导致的,还是恶性通路的激活呢?
在肿瘤微环境中,上下调基因的来源可能由多种因素导致,包括细胞比例的改变和恶性通路的激活。为了区分这些基因的来源,可以采用以下方法:
综合上述方法,研究者可以更准确地识别和区分肿瘤微环境中上下调基因的具体来源,为肿瘤治疗提供更深入的理解和更精确的靶点。
我们这里使用这个胃癌单细胞数据集GSE163558,我做了解读,详见 :单细胞转录组降维聚类分群过滤基因和过滤细胞的区别 。而且前面已经是完成了降维聚类分群,在学习单细胞亚群命名的层次结构 演示了一个降维聚类分群结果,就有了 2-harmony/sce.all_int.rds 文件,以及对应的 phe.Rdata 注释信息。
而且我在前面的 走inferCNV流程的时候只需要针对上皮细胞即可和上皮细胞里面混入了淋巴系和髓系免疫细胞呢 做好了上皮细胞的细分,也给出来了针对不同单细胞亚群的特异性基因进行go和kegg数据库注释的方法,如下所示可以看到我们的第一层次降维聚类分群是合理的。成纤维单细胞亚群的top100的特异性基因确实是会富集到 "Focal adhesion" 和 "ECM-receptor interaction" 。而我们前面的芯片表达量差异分析的癌症里面的上调基因也是富集到 "Focal adhesion" 和 "ECM-receptor interaction" 通路。

如下所示:
rm(list=ls())
options(stringsAsFactors = F)
getwd()
source('../scRNA_scripts/lib.R')
sce.all.int = readRDS('../2-harmony/sce.all_int.rds')
load('../phe.Rdata')
sce.all.int@meta.data = phe
scRNA = subset(sce.all.int,downsample=50)
load('../GSE54129-anno_DEG.Rdata')
down=DEG$name[head(order(DEG$logFC),50)];
up=DEG$name[tail(order(DEG$logFC),50)]
gene_vector=list(up=up,down=down)
sc_dataset <- Seurat::AddModuleScore(scRNA,
features = gene_vector)
p1=VlnPlot(sc_dataset, features = 'Cluster1',
group.by = "celltype",pt.size = 0 ) + NoLegend()
p2=VlnPlot(sc_dataset, features = 'Cluster2',
group.by = "celltype",pt.size = 0 ) + NoLegend()
p1/p2
ggsave('AddModuleScore-VlnPlot-top50-GSE54129-anno_DEG.pdf',
width = 7,height = 10)
可以很明显的看到这个GSE54129数据集的表达量差异分析后的上调基因列表主要是在内皮细胞和成纤维细胞里面的高表达量,而下调基因反而是在上皮细胞打分比较高:

这个时候仍然是载入我们的每个单细胞亚群的top100基因,然后载入芯片表达量的差异分析上下调基因列表,然后做交集:
load('../check-by-celltype/qc-_marker_cosg.Rdata')
head(marker_cosg)
symbols_list <- as.list(as.data.frame(apply(marker_cosg$names,2,head,100)))
symbols_list
source('../com_go_kegg_ReactomePA_human.R')
#source('../com_go_kegg_ReactomePA_mice.R')
com_go_kegg_ReactomePA_human(symbols_list, pro='b' )
setwd('../')
up=read.table('../../GSE54129/gastric-vs-normal/gene_up.txt')[,1]
down=read.table('../../GSE54129/gastric-vs-normal/gene_down.txt')[,1]
do.call(rbind,
lapply(names(symbols_list), function(i){
x=symbols_list[[i]]
return(c(i,
length(x),length(up),length(down),
length(intersect(x,up)),length(intersect(x,down))
))
}))
可以看到的是,确实是表达量差异里面,上调的基因主要是跟内皮细胞和成纤维有交集,然后下调基因主要是在上皮细胞的特异性基因里面:
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] "neutrophils" "100" "1083" "1048" "35" "7"
[2,] "Tcells" "100" "1083" "1048" "9" "2"
[3,] "epi" "100" "1083" "1048" "4" "48"
[4,] "Bcells" "100" "1083" "1048" "20" "5"
[5,] "mac" "100" "1083" "1048" "52" "2"
[6,] "mast" "100" "1083" "1048" "6" "5"
[7,] "endo" "100" "1083" "1048" "33" "2"
[8,] "cycle" "100" "1083" "1048" "1" "2"
[9,] "plasma" "100" "1083" "1048" "2" "4"
[10,] "fibro" "100" "1083" "1048" "80" "0"
是不是蛮有意思的, 这里面的生物学故事很多,但是绝大部分人没办法去理解。
肿瘤的标志性特征(Hallmarks of Cancer)是一系列生物学过程,这些过程共同促进了肿瘤的发生和发展。根据Douglas Hanahan和Robert A. Weinberg的经典综述,这些特征不断更新以反映癌症研究的最新进展。以下是癌症的标志性特征的精简列表:
这些特征不仅涵盖了肿瘤细胞的生物学特性,还包括了肿瘤与宿主环境的相互作用,为癌症的诊断、治疗和研究提供了重要信息。