依稀记得五六年前自己学会进行GO,KEGG富集分析兴奋不已时的场景,后来学会利用在线网站进行如疾病、药物、转录因子等富集分析,接触到越来越多的数据库中的数据集。尤其是在https://www.webgestalt.org/网站,自己使用的非常多,学会了许多用法。今天我们将利用来自Enrichr(另一个常见的在线富集分析网站)收录的数据集在WEbgestalt网站进行富集分析:一个自己输入的基因集与一个候选特征数据集(包含多个terms)之间的1V1的富集分析过程。不在Enrichr上进行富集分析的原因是其富集默认选择的数据集过多导致网站加载过多没法顺利完成(网络通畅度不高)。我们将首先介绍Enrichr 网站libraries板块数据集类型,然后在Webgestalt上进行实例操作。
如BioCarta(2013/2015/2016)、KEGG(2013/2015/2019/2021)、Reactome(2022/2024)、WikiPathways(2013-2024)等通路数据库;以及Gene Ontology(GO)的生物学过程、细胞组分、分子功能(如GO_Biological_Process_2025)。
衰老(Aging_Perturbations_from_GEO)、疾病(Disease_Perturbations_from_GEO)、药物(Drug_Perturbations_from_GEO)、
基因(Gene_Perturbations_from_GEO)、病毒(Virus_Perturbations_from_GEO)
等因素引起的基因表达变化(含down/up方向),以及LINCS L1000、L1000 inase/GPCR等扰动数据集。
包括疾病数据库(DisGeNET、OMIM_Disease、Orphanet_Augmented_2021)、GWAS研究(GWAS_Catalog_2019/2023/2025)、人类表型本体(Human_Phenotype_Ontology)、Jensen_DISEASES(Curated/Experimental)等。
如癌细胞系(CCLE_Proteomics_2020、NCI-60_Cancer_Cell_Lines)、DepMap CRISPR基因依赖数据(DepMap_CRISPR_GeneDependency_CellLines_2023)、GTEx组织表达(GTEx_Tissues_V8_2023)、单细胞图谱(Tabula_Sapiens、Tabula_Muris、Azimuth_Cell_Types_2021)等。
包括ChEA(2013/2015/2016/2022)、TRRUST转录因子(TRRUST_Transcription_Factors_2019)、转录因子共表达(ARCHS4_TFs_Coexp)、TF结合位点(JASPAR_PWM_Human_2025、TRANSFAC_and_JASPAR_PWMs)等。
如药物靶点(DGIdb_Drug_Targets_2024、IDG_Drug_Targets_2022)、化合物扰动(LINCS_L1000_Chem_Pert)、药物测序数据(NIBR_DRUGseq_2025_down/up)、DrugMatrix、DSigDB等。
涵盖蛋白质组学(ProteomicsDB_2020、Tissue_Protein_Expression_from_ProteomicsDB)、磷酸化蛋白质组学(SILAC_Phosphoproteomics)、代谢组学(HMDB_Metabolites、Metabolomics_Workbench_Metabolites_2022)等。
如Allen脑图谱(Allen_Brain_Atlas_10x_scRNA_2021)、人类基因图谱(Human_Gene_Atlas)、HuBMAP组织单细胞数据(HuBMAP_ASCTplusB_augmented_2022)、CORUM(蛋白质复合体)、BioPlex(蛋白互作)等。
还包括染色体定位(Chromosome_Location_hg19)、microRNA靶基因(TargetScan_microRNA)、lncRNA共表达(lncHUB_lncRNA_Co-Expression)、CRISPR筛选研究(Table_Mining_of_CRISPR_Studies)等。
3.举例操作
1.在Enrichr网站上,选择Libraries,选择目标富集数据集,点击2所在位置的下载按钮,进行数据集下载。
2.数据集格式:下载本地电脑后,数据集为txt格式,可以用excel方式打开。A列为每一个terms的描述性内容,B是空白或者数据集的链接。C列还是是基因名,一个单元格是一个基因信息。
3.将数据集格式从txt转换为.gmt格式,用记事本打开数据集txt文件,点击另存为后,选择所有文件类型选项。文件后缀加入.gmt字样,再进行保存。
4.WebGestalt网站进行富集分析:上传GMT格式的数据集,输入待富集的基因集。1选择富集模式。2.在Functional Database选择Others. 3选择ID type 为Genesymbol. 4.在Upload Functional Database中点击 click to upload 进行数据集上传。5.在Input ID list中输入差异基因集。6.Select Refernce Set选择Genome.
5. 富集条件筛选:选择FDR<0.05.如果后续富集结果数量过少,在选择Top 100 ,top20来进行富集结果扩充。
6. 富集结果展示。 1所示我们上传的数据集信息。2是我们提供的差异基因信息。3是筛选条件。4是富集到的Terms 数量。
7. 展示目的基因在哪些数据集中进行了富集。如下图所示,我们提供了干扰素相关基因,选用衰老相关转录组下调基因数据集。富集结果主要在人CD4+T细胞年龄小vs 年龄大中下调(反过来理解就是在年龄大组CD4+T细胞中基因上调)
8. 展示衰老相关转录上调基因数据集:我们依然用干扰素相关基因集,选用衰老上调基因数据集进行富集分析,结果发现非常矛盾的一点是,干扰素基因反而富集在年龄小小鼠或者人的组织、细胞上。尤其是在月龄小的小鼠肝脏来源的转录组数据中。因此。数据集富集结果只是一个推测的分析方法。数据集是否具有较好的鲁棒性需要不同来源的数据集比较才能知晓。
9.利用Cellmarker_2024 数据集进行了的干扰素基因集富集分析结果如下:干扰素基因通常富集在免疫细胞中如B、T、中性粒细胞、DC细胞中。当然,首先要理解为什么要做差异基因与Cellmarker之间的富集分析。目的是看我们筛选的目的基因在哪些细胞中富集表达,为后续研究特定细胞给出充分理由。