前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >4分+,利用三种机器学习方法构建临床诊断模型,可复性很强!

4分+,利用三种机器学习方法构建临床诊断模型,可复性很强!

作者头像
用户6317549
发布2022-04-09 11:12:17
2.8K0
发布2022-04-09 11:12:17
举报
文章被收录于专栏:科研猫科研猫

想给大家说说机器学习,今天带来的是2021年发表在Am J Transl Res上的一篇文章,IF4.06,JCR分区Q2。文章思路简单清晰,易于模仿上手。

Am J Transl Res. 2021 May 15;13(5):4068-4079.

研究思路

  • 首先,该研究主要利用GEO数据库中的基因表达数据,筛选出差异表达基因(DEGs),并与免疫相关基因(IRGs)交联,得到差异表达的免疫相关基因(DIRGs)并对其进行功能富集分析。
  • 随后,利用3种机器学习方法:随机森林模型(RF)、支持向量机模型(SVM)和广义线性模型(GLM),分别鉴定出重要的4个免疫相关基因建立诊断模型。
  • 最后,通过讨论免疫细胞与炎症及四个关键基因的关系,探究胎盘炎症与GDM的关系。

技术路线图

1.背景介绍

作为最普遍的妊娠代谢紊乱,妊娠期糖尿病(GDM)被定义为“在妊娠中期或晚期诊断出的糖尿病,妊娠前患者没有诊断糖尿病。

GDM给孕妇及其胎儿都会造成很大危害, 但GDM的发病机制尚不清楚,很多证据表明,免疫细胞及其分泌的促炎因子在GDM的发生发展中起到重要作用。

2.实验流程及结果

1.差异表达分析和蛋白质-蛋白质相互作用(PPI)分析

  • 数据获取:GEO数据库获取2个转录组数据集GSE70493 和GSE128381;ImmPort数据库下载免疫相关基因(IRGs)数据;
  • 通过筛选GSE70493数据集中非GDM与GDM相关的705个差异表达基因(DEGs);
  • 进一步与2499个免疫相关基因(IRGs)进行交联,获得79个差异表达的免疫相关基因(DIRGs);
  • 然后通过 Cytoscape 3.8.0 构建蛋白质-蛋白质相互作用 (PPI) 网络。

A. GSE70493数据集中的 DEG 与从 ImmPort 下载的 IRG 的交集包含 79 个 DIRG。

B. 76 个 DIRGs 的 PPI 网络分析。

2.GO和KEGG通路富集分析

  • 这些DIRGs正向调控细胞因子的产生,位于膜,表现出受体配体活性和受体调节剂活性;
  • 主要参与细胞因子-细胞因子受体相互作用、病毒蛋白与细胞因子和细胞因子受体的相互作用。
  • 结果表明:GDM与炎症密切相关,胎盘炎症可能在GDM中起重要作用。

A. 76个DIRGs的生物过程(BP,上)、细胞成分(CC,中)和分子功能(MF,下)分析结果。

B. 76 个 DIRGs 的 KEGG 通路富集分析结果。

3.RF、GLM和SVM模型的构建和评估

  • 从 76 个 DIRG 中选取 log|FC|>0.1 的 6 个基因(DKK1、ILRL1、CXCL9、HLA-DQA2、CXCL10 和 FABP4)作为构建三个模型的关键基因;
  • 在训练集GSE70493数据集中,通过建立随机森林模型(RF)、支持向量机模型(SVM)和广义线性模型(GLM),选择最优模型(RF);
  • 从RF模型中筛选得到最显著的4个关键DIRGs:DKK1、ILRL1、FABP4和CXCL10。

A. 样本的累积残差分布图。

B. 样本残差的箱线图。RF 模型被确定为最合适模型

C. RF、GLM 和 SVM 模型中的变量。

4.对上述4个关键基因进一步分析它们的表达水平

  • GDM胎盘中:DKK1、CXCL10和IL1RL1的表达低;
  • 非GDM 胎盘中:FABP4 的表达高;
  • PCA分析:这4个基因可以清楚地区分GDM和非GDM,表明在GDM的诊断中起到重要作用;
  • HLA.DQA2和CXCL9与其这4四个基因具有较高的相关系数,表明这两个基因与它们4个具有高度的功能相似性。因此,在选择 GDM 诊断生物标志物时可以排除 HLA.DQA2 和 CXCL9,从而减少不必要的资源浪费。

A. CXCL10、FABP4、DKK1 和 IL1RL1 表达模式的热图。

B. DKK1、ILRL1、FABP4 和 CXCL10 的染色体位置。

C. 来自GSE70493数据集的 GDM 和非 GDM 之间 CXCL10、FABP4、DKK1 和 IL1RL1 的相对表达水平。

D.主成分分析表明,上述四个基因可以清楚地区分GDM和非GDM。

A. DKK1、ILRL1、CXCL9、HLA-DQA2、CXCL10和FABP4之间的相关性。

B.CXCL10、FABP4、DKK1和IL1RL1之间的相关性。

5.GDM诊断模型的构建和评估

  • 模型构建:利用4个DIRGs构建GDM列线图诊断模型;
  • 模型评估:校准曲线表明列线图模型预测 GDM 具有较高的准确性;
  • 决策曲线(DCA)分析:患者可以从构建的诊断模型中获益;
  • 在DCA曲线的基础上绘制了临床影响曲线,在此说明该诊断模型预测能力较好。

基于训练数据集GSE70493的 GDM 诊断列线图模型的构建和验证.

A. 用于预测 GDM 发生的列线图。

B. 评估列线图模型预测能力的校准曲线。

C. DCA 曲线评估列线图模型的临床价值。

D. 基于 DCA 曲线评估列线图模型的临床影响曲线。

6.免疫细胞浸润分析

  • 比较非 GDM 和 GDM 样本之间的 22 个免疫细胞浸润,使用热图和直方图将结果可视化;
  • GDM样本:M0巨噬细胞、M1巨噬细胞和中性粒细胞的浸润丰度较高;M2巨噬细胞的浸润丰度较低;其他免疫细胞浸润丰度无统计学差异;
  • M1可产生诸如CXCL10的促炎因子,导致炎症发生,而M2具有抗炎作用。这表明巨噬细胞在胎盘炎症中起到重要的调控作用。

A. 浸润免疫细胞的特征。

B. GDM组与非GDM组浸润免疫细胞的差异。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科研猫 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档