前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >利用代谢相关基因构建列线图是如何发4分+SCI的?

利用代谢相关基因构建列线图是如何发4分+SCI的?

作者头像
百味科研芝士
发布2021-01-06 14:14:01
9880
发布2021-01-06 14:14:01
举报
文章被收录于专栏:百味科研芝士百味科研芝士

大家好!今天跟大家分享的文献是2020年9月发表在Molecular Therapy-Oncolytics(IF=4.115)杂志上的一篇文章。文章利用TGCA数据库中肺癌患者的转录组数据,使用代谢基因特征建立预测模型,预测患者的生存时间。构建列线图预测患者的3年和5年生存率。

题目:Prognostic Implication of a Metabolism-Associated Gene Signature in Lung Adenocarcinoma

肺癌代谢相关基因的预后特征

摘要

肺癌是全球最常见的癌症之一,其致死率很高。代谢途径在肺癌的发生和发展过程中起着十分重要的作用。作者旨在基于代谢相关基因(MTG)特征构建肺腺癌(LUAD)的预后预测模型。从TCGA LUAD队列中筛选差异表达(DE)的MTG。通过单因素Cox回归分析和LASSO分析作者构建了最佳风险模型,使用生存分析评估预后模型的能力。KM结果表明该模型在TCGA和GEO数据中均表现良好。最后,结合临床表型和代表基因特征构建列线图,其结果有助于个性化结果预测。校准曲线显示了实际结果和预测结果之间的一致性。

流程图

1. 数据的获取和整理

本文从GeneCards(https://www.genecards. org/ ) 收集MTGs。从TCGA数据库收集533个肿瘤样本和59个正常样本。从GEO数据库下载数据GSE31210和GSE30219数据集。

2. 鉴定差异表达(DE)-代谢相关基因(MTGs)和功能分析

从GeneCards数据库中收集到1943个MTGs,其中有86个是TCGA队列的差异表达基因(图1A)。差异表达基因(DEGs)和MTGs的交集情况见图1B。对这86个DE-MTGs进行GO和KEGG富集分析,主要富集在PPAR信号通路和参与酰胺结合、肽结合和正调节树突状细胞分化等功能。

图1 TCGA数据集的差异表达分析

3. TCGA训练队列构建预后基因模型

单因素Cox回归分析鉴定到了37个与OS显著相关的DE-MTGs(图1C)。图1D和1E展示了这37个基因在肿瘤和正常样本中的差异表达情况。随后使用LASSO构建预后模型,回归系数见图2A,包含这13个基因预后模型性能最好(图2B)。这些预后基因主要参与糖代谢,脂代谢和维生素代谢(表1)。

表1 预后基因的功能

作者使用cBioPortal for Cancer Genomics网站研究这13个基因的遗传变异情况。在PanCancer Atlas数据中的507位LUAD患者中有119(23%)位患者发生了突变(图2C),而Firehose Legacy中的230位LUAD患者有54(23%)位患者发生了突变。在Nat Genet2016中有1144位患者中有304(27%)位患者发生了突变。这些突变的频繁发生可能在某种程度上意味着这些基因有助于肿瘤发生。作者同样研究了6个预后基因在BRCA,CESC,PAAD,STAD,LIHC等癌症中的突变情况。分别有18%,15%,18%,9%和52%的患者发生了基因突变。

根据这13个基因的表达水平和LASSO Cox回归分析计算患者的预后risk score。作者使用单因素Cox回归分析和多因素Cox回归分析评估risk score的预后价值。单因素Cox回归分析显示risk score和临床表型与OS显著相关而多因素Cox回归分析表明risk score是独立的预后因素。

图2 构建代谢基因特征和预后价值的评估

risk score的分布及risk score和生存时间的相关性见图3A。根据risk score将患者分为high-risk和low-risk两组。使用聚类热图展示high-rish和low-risk预后基因的表达水平(图3B)。KM生存分析表明low-risk组具有更高的生存可能性(图4A)。生存期1-5年的ROC曲线见图4B,AUC的最大值为0.72,表明该模型的敏感性和特异性良好。

图3 risk score的特征和代谢基因的聚类热图

图4 预后基因的生存分析和ROC曲线

4. GEO验证数据集中预后基因的评估

为验证risk score的预后价值,作者根据TCGA数据集得到的阈值将两个GEO数据集分为high-和low-risk两组。risk score的分布和risk score及risk score和生存时间的相关性见图3C和图3E。基因表达情况见图3D和图3F。Okayama数据集包含226个Ⅰ期和Ⅱ期LUAD患者,KM生存分析表明low-risk组的生存可能性更高,AUC最大为0.83(图4C和4D)。Rousseaux数据集包含292个Ⅰ期到Ⅳ期的肺癌患者。预后基因模型在验证数据集中表现良好(图4E和4F)。总的来说,这13个代谢相关基因有助于风险分层。

作者使用TCGA数据库中6种其他癌症(BRCA,CESC,PAAD,SKCM,STAD和LIHC)的数据集评估这些预后基因的特异性,K-M生存分析表明,LIHC和PAAD的低风险组的生存率较高。

5.构建列线图

列线图是整合多种风险因子应用于临床的有效工具之一。作者对TCGA LUAD队列数据集构建列线图,主要包括年龄、性别、T期、M期、N期和代谢特征等七个风险因子(图5A)。患者3年和5年的OS与列线图预测结果一致(图5B和5C)。

图5 列线图

6.信号通路分析

GSEA分析表明high-risk组的基因主要富集在细胞循环,P53信号通路,嘧啶代谢和蛋白酶体等通路,而low-risk组的基因主要富集在血管平滑肌收缩和初级胆汁酸生物合成等通路(图5D)。

7.预后基因的免疫组化染色

为验证这些预后基因的蛋白表达水平,作者对4个基因进行了免疫组化染色。在NSCLC和SCLC lung组织中SLC2A1的表达水平增加,在肺癌组织中PSCK9和ABCC2呈弱阳性而在NSCLC和SCLC lung组织中均没有检测到KL(图6)。

图6 预后基因的免疫组化染色

7.单细胞水平上分析基因表达水平

Thienpont等人鉴定到了肺癌微环境中的7个主要细胞类型的52个细胞亚类。作者对肺癌组织进行单细胞转录组测序来评估这些基因在单细胞水平上的表达水平。结果表明,SLC2A1,CYP4B1,TFAP2A,TCN1,CDKN3和TK1在大部分细胞中表达,而FFAR4主要在髓系细胞中表达CAV3仅在纤维细胞的亚类中表达。

结语

作者基于TCGA数据集构建了一个MTG预后特征,可能有助于为LUAD患者提供治疗靶点。本研究构建的列线图可以准确预测LUAD患者的3年和5年生存率,有助于个性化治疗。本文的亮点在于使用代谢相关基因建立模型预测肺癌患者的预后情况,得到了较好的预测效果且使用外部数据进行了验证,同时使用单细胞数据集研究这些基因在单细胞水平上的表达情况具有一定的创新性,值得我们学习。但是文章还有有一些不足,例如对单细胞数据的分析较少。

最近公众号改版,

以防失联,加个星标吧!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-12-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 百味科研芝士 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档