前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不容错过的6分+预后模型套路

不容错过的6分+预后模型套路

作者头像
百味科研芝士
发布2021-07-12 15:34:14
2.1K0
发布2021-07-12 15:34:14
举报
文章被收录于专栏:百味科研芝士百味科研芝士
大家好!今天跟大家分享的文献是2021年4月发表在Genomics(IF=6.205)杂志上的一篇文章。本研究基于转录组数据构建了四基因预后模型,可以准确预测ccRCC患者预后

题目:Development of a four-gene prognostic model for clear cell renal cell carcinoma based on transcriptome analysis

基于转录组数据构建肾透明细胞癌的四基因预后模型

摘要

本研究基于转录组数据构建了肾透明细胞癌的预后模型,作者下载GEO和TCGA数据库的ccRCC转录组数据和临床特征。差异分析鉴定到533个ccRCC发育有关的关键基因,随后进行WGCNA分析鉴定差异基因和临床特征的关系。基于PPI网络,LASSO分析和Cox回归分析构建四基因预后模型。使用KM生存分析和ROC曲线研究该模型的能力。作者发现该预后模型与免疫细胞浸润显著相关。该预后模型可以作为一种准确性较高的预后预测工具。

生信分析定制服务

也可直接添加小编微信:keyan-zhishi2沟通

流程图

结果

1. 数据的获取和整理

从GEO数据库下载ccRCC的芯片数据(GSE14994,GSE15641, GSE16449,GSE36895, GSE46699,GSE53757,GSE71963和GSE126964)。从TGCA数据库下载514例ccRCC样本和72例正常样本的转录组数据和临床数据。

2. GEO数据分析

作者使用“renal cell carcinoma”和“human tissue”作为关键词筛选GEO数据库中的ccRCC数据集,共下载8个ccRCC数据集。使用R包“Affy”和“Simpleaffy”对这些数据集进行分析。共包含220例正常组织和381例ccRCC组织。对每个数据集进行差异分析并筛选,共得到948个DEGs,包括408个上调基因和540个下调基因,排名前10的DEGs如图1A所示。对DEGs进行GO分析如图1B所示。这些基因大多数与肾脏,肿瘤免疫微环境和跨膜通道蛋白发生发展有关。

图1 差异基因鉴定和GO分析

2. TCGA数据分析

对TCGA数据集进行差异分析,共鉴定到5298个DEGs,包括3091个上调基因和2207个下调基因。对DEGs进行GO分析如图2A和图2B所示。作者发现两个数据库中的DEGs并不完全相同,结果表明肾和血管发生,肿瘤免疫微环境和跨膜转运在ccRCC发育中起到重要作用。

图2 TCGA数据集的DEGs的GO分析

3. DEGs和临床特征的相关性

作者对两个DEGs取交集,共得到533个DEGs,包括189个上调基因和344个下调基因。为研究基因与临床特征的相关性,作者进行WGCNA分析。由于WGCNA分析需要的基因数量较大,因此作者对TCGA数据集鉴定到的5298个DEGs进行分析(图3)。绿色模块与大部分临床特征有关,年龄仅与红色模块有关,性别仅与绿色模块有关。这些结果表明,转录失调可能与年龄和性别无关。然而,总生存期和N期与大多数模块显著相关,总生存期与模块的相关性较高。因此,作者接下来重点研究总生存期。

图3 WGCNA分析

4. 筛选ccRCC生存相关的基因

为筛选533个DEGs中的核心基因,作者构建PPI网络。图4A为DEGs的PPI调控网络。使用MCODE插件筛选最显著的cluster(图4B),以鉴定关键基因。这些关键基因在ccRCC发育中起到重要作用。最终,筛选到100个核心基因。

图4 筛选ccRCC生存相关基因

为筛选ccRCC生存相关的潜在基因,作者将TCGA数据集分为训练集和验证集。进行单因素Cox回归分析,得到31个生存相关的基因。随后进行LASSO分析,得到11个基因。最后使用多因素Cox回归分析,最后得到4个基因(表1)。风险打分=0.63 × COL4A5 - 0.34 × ABCB1 – 1.08 × NR3C2 – 0.51 × PLG(图4E)。

表1 肾透明细胞癌的4个独立预后因子

5. 预后模型生存分析和验证

根据风险打分,作者将训练集分为高风险组和低风险组(图5A)。训练集的生存情况如图5B所示风险打分越高预后越差。KM生存分析表明高风险组的总生存期显著较低(图5C)。ROC曲线预测1年和3年的AUC面积分别为0.8205和0.7552(图5D)。作者将高风险组中死亡患者定义为真阳性,将低风险组中死亡患者定义为假阴性,将高风险组中存活患者定义为假阳性,将低风险组存活患者定义为真阳性。TCGA训练集的敏感性为74.71%,特异性为62.35%,阳性预测值为50.39%,阴性预测值为82.81%。

对验证集进行相同分析,根据风险打分将患者分析高风险组和低风险组(图5E)。高风险组预后价差,死亡患者较多(图5F和5G)。ROC曲线的1年和3年生存期的AUC分别为0.7573和0.6711(图5H)。结果表明该预后模型可以准确预测ccRCC患者的预后。

图5 TCGA数据集的生存分析

6. 四基因预后模型的独立验证

为进一步验证预后模型的准确性,作者使用GSE29609数据集进行验证。根据风险打分将患者分为高风险组和低风险组(图6A)。高风险组的预后较差(图6B和6D)。这四个基因的表达水平如图6C所示。其中,NR3C2在低风险组的表达水平较高,而ABCB1, COL4A5和PLG的表达水平没有差异。ROC曲线的1年和3年的AUC面积分别为0.7634和0.7006(图6E)。

图6 预后模型的验证

7. 四基因预后模型与免疫细胞浸润的相关性

GO分析已经表明DEG与免疫微环境有关。为研究四基因预后模型与免疫细胞浸润的相关性,作者浸润GSEA分析。结果表明,高风险组和低风险组富集多种免疫相关信号通路。使用CIBERSORT分析TCGA数据集的免疫细胞比例。随后进行免疫细胞与风险打分的相关性。风险打分与naïve B细胞,将细胞, CD4+ T细胞,树突状细胞,NK细胞,单核细胞和肥大细胞负相关(图7),而CD8+ T细胞,Treg细胞,巨噬细胞M2和中性粒细胞与风险打分正相关(图7)。免疫检查点分析表明,PD-1和CTLA-4表达水平与风险打分正相关,而PD-L1与风险打分负相关。以上结果表明四基因预后模型与免疫细胞浸润有关。

随后作者研究该模型对不同免疫细胞浸润的患者的预后价值,KM生存分析表明低风险组患者的将细胞,CD8+ T细胞,CD4+ T细胞,巨噬细胞M1,巨噬细胞M2,树突状细胞,NK细胞,单核细胞,中性粒细胞和肥大细胞的比例更高。总的来说,四基因预后模型可以通过免疫细胞浸润预测总生存期。

图7 预后模型和免疫细胞浸润的相关性

结论

作者首次基于转录组数据构建了ccRCC的四基因预后模型。高风险组患者的总生存期较短,这可能与肿瘤微环境中抑制性免疫细胞较多,非特异性免疫细胞浸润较少有关。总的来说,该预后模型可以作为一种准确性较高的预测ccRCC患者预后的预测工具。本研究存在的局限性在于没有进行实验验证和基因突变等相关分析。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 百味科研芝士 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档