前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【生信文献200篇】68 使用深度学习对多组学数据找预后标记物

【生信文献200篇】68 使用深度学习对多组学数据找预后标记物

作者头像
生信菜鸟团
发布2021-10-12 15:26:58
1.6K0
发布2021-10-12 15:26:58
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

00 文章信息

英文标题:Deep Learning-Based Multi-Omics Integration Robustly Predicts Survival in Liver

中文标题:基于深度学习的多组学联合分析可以预测肝癌患者的生存

期刊:《Clin Cancer Res》

影响因子: 12.533 发表时间: 2018 Mar 15

研究领域:深度学习

01 文献概述

作者团队提出了一个基于深度学习 (DL) 的肝癌模型,该模型可以很好的区分六个队列中患者的生存亚群。使用来自 TCGA 的 RNA-seq、miRNA-seq 和甲基化数据在 360 名 HCC 患者的数据上构建了基于 DL 的生存敏感模型,该模型预测预后与同时考虑基因组学和临床数据的替代模型一样好。这种基于 DL 的模型提供了具有显著生存差异和良好模型适应性的两个最佳患者亚组。这是第一项采用深度学习来识别与 HCC 患者生存差异相关的多组学特征的研究。鉴于其在多个队列中的稳定性,预计此工作流程可用于 HCC 预后预测。

02 文章背景

肝癌是世界范围内导致男性死亡的第二大癌症 。不同人群 HCC 的 5 年生存率差异很大,HCC 的高度异质性以及复杂的病因因素使得预后预测非常具有挑战性。此外,HCC 的治疗策略非常有限,因此迫切需要开发预测患者存活率的工具。

我们首次在多组学 HCC 数据集上使用了深度学习 (DL) 计算框架。选择自动编码器框架作为多组学集成的 DL 实现。从 TCGA 多组学队列中的 360 个 HCC 样本中获得模型,这些样本具有 mRNA 表达、miRNA 表达、CpG 甲基化和临床信息。

03 实验结果

1. Two differential survival subtypes are identified in TCGA multi-omics HCC data

从 TCGA HCC 项目中获得 360 个肿瘤样本,这些样本结合了 RNA-seq、miRNA-seq 和 DNA 甲基化数据。对于这 360 个样本,从 RNA-seq 中获得了 15,629 个基因,从 miRNA-seq 中获得了 365 个 miRNA,从 DNA 甲基化数据中获得了 19,883 个基因作为输入特征。这三种类型的组学特征使用深度学习框架autoencoder framework堆叠在一起 。

使用来自bottleneck hidden layer的 100 个节点作为新特征。然后,对 100 个特征中的每一个都进行了单变量 Cox-PH 回归,并确定了 37 个与生存相关的显著特征。这 37 个特征是 K-means 聚类的主观特征,聚类数 K 的范围从 2 到 6。K=2 是两个指标的最佳得分。此外,对完整 TCGA HCC 数据的生存分析表明,两个子集群中的生存率截然不同。通过这些来确定 K=2 是后续监督机器学习过程的分类标签。

接下来使用上面确定的 2 个类别作为标签,使用支持向量机 (SVM) 算法和交叉验证 (CV) 来构建分类模型。

2. The survival subtypes are robustly validated in five independent cohorts

在各种五个独立的队列中验证模型,每个队列只有 mRNA、或 miRNA 或甲基化组学数据。在 SVM 分类之前(TCGA 和 5 个队列之间)ANOVA 选择的常见顶级特征如下:LIRI-JP (94%), NCI (74%), Chinese-GSE31384 (58%), E-TABM-36 (82%) and Hawaiian (100%)。

3. The DL-based methodology outperforms alternative approaches

将上文描述的模型的性能与两种替代方法进行了比较。

与基于单组学的 DL 模型相比,基于 3 组学的 DL 模型在 CV 中提供了更好的预测指标,这表明多组学数据确实优于单组学数据用于模型构建。

4. Adding clinical information does not improve DL-based multi-omics model

即使没有临床特征,基于 DL 的多组学模型也表现得足够好。我们推测原因是由于 DL 神经网络的独特优势,它可以通过相关的基因组特征捕获临床特征的冗余。

5. Functional analysis of the survival subgroups in TCGA HCC samples

使用 DESeq2 来分析两种已识别亚型之间的差异基因表达。在应用 log2 倍数变化 >1 和 FDR >0.05 后,在侵袭性亚簇 S1 中获得了 820 个上调基因和 530 个下调基因。18个基因(ADH1B、ALDOA、APOC3、CYP4F12、EPHX2、KHK、PFKFB3、PKLR、PLG、RGN、RGS2、RNASE4、SERPINC1、SLC22A7、SLC2A2、SPHK1、SULT2A1、TM4SF1)在两个亚型中有相似的差异表达趋势与先前研究中的表达相同,其中一组 65 个基因特征与 HCC 存活相关 。

使用上述差异表达基因,进行 KEGG 通路分析,以确定富含两种亚型的通路。这些亚型具有不同且(几乎)不相交的活性通路,证实它们在通路水平是不同的亚组。侵袭性亚型 S1 富含癌症相关通路、Wnt 信号通路、PI3K-Akt 信号通路等。相比之下,中度亚型 S2 具有激活的代谢相关途径,包括药物代谢、氨基酸和脂肪酸代谢等。

作者团队已经从分子水平确定了两种亚型。这个模型是稳定的,并且可能比其他方法更优越,表现在几个层面上。1、CV 结果在 TCGA HCC 测试样本中给出了一致的性能,这意味着模型的可靠性和稳定性。2、由于潜在的临床风险因素,模型中使用的深度学习技术已经捕获了足够的变化,因此它的表现与在模型中具有其他临床特征一样准确甚至更好。3、与 PCA 或基于 Cox-PH 的单个模型相比,autoencoder framework 在识别与生存相关的特征方面表现出更高的效率。最后也是最重要的是,该模型在另外五个队列中得到了重复验证,包括 RNA-seq, mRNA microarray, miRNA array, and DNA methylation platforms。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 00 文章信息
  • 01 文献概述
  • 02 文章背景
  • 03 实验结果
    • 1. Two differential survival subtypes are identified in TCGA multi-omics HCC data
      • 2. The survival subtypes are robustly validated in five independent cohorts
        • 3. The DL-based methodology outperforms alternative approaches
          • 4. Adding clinical information does not improve DL-based multi-omics model
            • 5. Functional analysis of the survival subgroups in TCGA HCC samples
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档