
今天分享一篇2019年12月发表于Aging-us的文章,标题是Screening, identification and validation of CCND1 and PECAM1/CD31 for predicting prognosis in renal cell carcinoma patients,影响因子为5.515;文章采用GSE数据集进行差异分析,cytoscape进行模块和hub基因的筛选,对筛选到的hub基因进行生存曲线绘制,其中8个基因与预后相关;在TCGA数据集进行基因表达水平比较,并进一步用实验验证(在补充材料中还利用了HPA数据进行病理切片上目的蛋白表达情况的展示,感兴趣的同学可以研究研究这个数据库哦);此后,用GSEA对表达相关基因进行通路富集分析;
研究思路
• 差异分析,这里是在3个GSE数据集中进行差异分析后,取交集
• PPI及significant module,利用STRING进行蛋白互作的分析,MCODE进行模块筛选,cytohubba进行hub基因筛选
• 生存分析,基于基因表达水平分组后进行KM曲线绘制;
• 基因表达水平的比较,在不同临床亚型下进行基因表达水平的比较;
• 实验验证(western blot和qRT-PCR)
• 外部数据验证,利用另一个GSE数据集进行生存分析,印证之前的分析结果;
• GSEA分析,对相关基因进行GSEA分析,联系上生物学功能;
结果
1
差异分析
对3个GSE数据集进行差异分析后,取共有的差异基因(即相同阈值得到的基因列表取交集)共379个;在STRING中输入差异基因后得到蛋白互作关系,用MCODE找到最有意义的模块,均在cytoscape中进行展示;

2
hub基因分析
利用cytoHubba筛选得到10个最有意义的hub基因,并在cbioportal中对得到的10个hub基因进行共表达分析,得到hub基因及其共表达基因的调控关系;利用ClueGO和CluePedia对筛选得到的hub基因进行生物功能注释分析;并用热图展示hub基因在正常和肿瘤组织中的表达;

3
单因素生存分析
KM曲线分析认为,在10个基因中有8个基因跟生存相关(文中说,在GEPIA中先看到了两个基因与生存相关,后面修改阈值后,发现8个基因与生存相关,所以,我们看到的图是风格迥异的两个),其中5个基因为高表达预后差,3个基因为高表达预后好;


4
基因表达水平比较
在肿瘤和正常组织中进行CCND1和PECAM1的表达水平比较,均为在肿瘤中高表达,且具有统计学意义;并在正常和肿瘤的AJCC和ISUP分级下进行CCND1和PECAM1表达水平的比较;

5
外部数据进行生存分析验证
在另一个GSE数据集GSE3538中进行CCND1和PECAM1的生存分析,同样是,依据表达将样本分为高低表达两组后进行生存曲线的绘制,印证了之前的生存分析结果,即高表达预后好;

6
实验验证
western blot和qRT-PCR对肿瘤和正常样本进行蛋白和RNA表达水平的比较,均为在肿瘤中相对高表达;

7
GSEA分析
对CTNND1和PECAM1显著相关基因进行GSEA分析,并用热图对相关基因进行表达水平的展示;


结语
主要利用了4个GSE数据集和TCGA-KIRC数据集。其中3个GSE数据集进行差异分析,对差异分析结果取交集后cytoscape分析得到重要模块和hub基因;在TCGA数据集中进行生存分析,并在另一个GSE数据集中进行生存分析验证;在数据集中进行基因表达水平的分析,并进行实验验证;最后用GSEA对表达相关基因进行通路富集分析,最终将结果落到了生物学功能上。