前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习~11+高分疾病相关miRNA研究新视角

深度学习~11+高分疾病相关miRNA研究新视角

作者头像
作图丫
发布2022-06-24 10:18:41
5330
发布2022-06-24 10:18:41
举报
文章被收录于专栏:作图丫作图丫

导语

数据库中已验证的miRNA-疾病关联严重不足,使用传统的生物学实验方法识别新的miRNA-疾病关联成本高且具有一定的盲目性。

背景介绍

目前,深度学习已经被广泛应用在对疾病的各种机制的研究中,今天小编为大家带来的这篇文章,提出了一种基于自动编码器(DFELMDA)的深度森林集成学习的新计算方法来预测 miRNA 与疾病的关联。文章于2022年五月份发表在《Briefings in Bioinformatics》上,影响因子为11.622,文章题目为:Identification of miRNA–disease associations via deep forest ensemble learning based on autoencoder。

数据介绍

本研究中使用的数据集从 HMDD v2.0 数据库下载,数据包括 495 种 miRNA、383 种疾病和 5430 种经实验验证的 miRNA-疾病关联。

结果解析

01

基于自编码器的深度森林集成学习模型‍

在本研究中,提出了一个 DFELMDA 来预测 miRNA 与疾病的关联。DFELMDA 分三个主要步骤进行:(i)提出了一种新的特征表示策略,以获得相同 miRNA-疾病关联的不同表示来训练模型,(ii)基于 miRNA 和疾病构建两个深度自编码器,用于提取低维特征表示‍(iii)RF 预测了两种类型的 miRNA-疾病关联,并结合到最终结果中‍。DFELMDA 的流程图如图1所示。

图 1

02

自编码器的训练

在本研究中,训练了两个具有相同结构(图 2)的自动编码器,用于从 miRNA 和疾病中提取特征的低维表示。具体来说,模型训练涉及两个过程:编码和解码。在编码阶段,将两种类型的 miRNA-疾病关联的高维特征表示馈送到编码器,以压缩特征并降低维度。在解码阶段,解码器尝试将低维表示 H 恢复为与输入特征表示相同的外观。

图 2

03

通过RF预测miRNA与疾病的关联

为了避免特征维度和特征质量对miRNA-疾病关联预测的不良影响,本研究选择RF作为分类器。本研究中,实验数据集由自动编码器输出的 128 维特征向量集表示。给定训练数据,步骤如下:1)从训练集中以放回的形式采样若干个样本,进行K次采样,训练出K个分类回归树(CART)决策树。2)利用基尼系数计算的最优分割变量,通过节点分裂构建CART决策树。3)通过重复前面的步骤K次获得K个CART决策树。4) 根据 K CART 决策树获得的结果,通过多数规则预测 miRNA-疾病关联。RF的示意图如图3所示。

图 3

04

方法比较

本研究进行交叉验证实验,使用常规指标研究 DFELMDA 的性能,并实施案例研究以进一步评估 DFELMDA 预测 miRNA-疾病关联的能力。为了评估 DFELMDA 在发现潜在 miRNA-疾病关联方面的卓越性能,将 DFELMDA 与几种先进的方法(TCRWMDA、RLSMDA、基于核脊回归的 miRNA-疾病关联预测(EKRRMDA)、改进的基于协同过滤的 miRNA-疾病关联预测(ICFMDA)和用于 miRNA 疾病关联预测的图形自动编码器模型(GAEMDA))进行了比较。

DFELMDA 实现的 5 倍 CV 的 ROC 曲线如图 4 所示。很明显,与其他五种方法相比,DFELMDA 在 AUC 方面具有最佳性能。在 5 倍 CV 中,DFELMDA 的 AUC 达到 0.9552,而三层异构网络结合不平衡随机游走的 MiRNA-疾病关联预测算法 (TCRWMDA)、RLSMDA、基于内核岭回归的集成 MiRNA-疾病的 AUC关联预测 (EKRRMDA)、改进的基于协同过滤的 miRNA-疾病关联预测 (ICFMDA) 和用于 miRNA-疾病关联预测的图自动编码器模型 (GAEMDA) 分别为 0.9208、0.8737、0.9307、0.9043 和 0.9353。

图 4

为了进一步验证 DFELMDA 的能力,本研究进行了10 倍 CV 。如图 5 所示,DFELMDA 达到 0.9560 的平均 AUC,即 10 倍 CV 的平均值为 0.9584、0.9581、t0.9614、0.9628、0.9582、0.9502、0.9582、0.9567、0.9571 和 0.9532。

图 5

05

与不同分类器模型的比较

为了进一步评估该方法的性能,本研究将其与四种不同的分类模型[决策树、KNN、朴素贝叶斯和深度神经网络 (DNN)] 进行了比较。结果,决策树、KNN、朴素贝叶斯和DNN得到的AUC分别为0.9150、0.9285、0.9222和0.9285。不同分类器模型的 ROC 曲线如图6所示。

图 6

06

实例探究

为了进一步证明 DFELMDA 在识别新的 miRNA-疾病关联方面的准确性,本模型在复杂人类疾病的案例研究中实施,即来自 HMDD 的结肠肿瘤 (CNs)、肺肿瘤 (LNs) 和乳腺肿瘤 (BNs) 。从数据库中获得的已知 miRNA-疾病关联作为 DFELMDA 的训练集,并根据预测结果对所研究疾病的候选 miRNA 进行优先排序。此后,在 HMDD、dbDEMC 和 microRNA 癌症协会数据库(miRCancer)数据库中选出前 50 个候选 miRNA 并一一检查。表1为在 CN、LN 和 BN 中发现的前 10 位 miRNA 。

表 1

本研究还选择了 14 种与更多 miRNA 相关的特定疾病。如表 2 所示,DFELMDA 取得了可观的 AUC 值,尤其是巴雷特运动与血管疾病‍,AUC 分别为 0.9579 和 0.9670。综上所述,从上述结果不难看出,DFELMDA 在交叉验证和案例研究方面具有可靠的能力。

表 2

小编总结

本研究开发了一种通过 DFELMDA 的新计算方法来推断 miRNA-疾病关联。首先,应用一种新的特征表示策略来获得相同 miRNA-疾病关联的不同类型的表示(来自 miRNA 和疾病)。然后,构建了两个基于 miRNA 和疾病的深度自编码器来提取低维特征表示。最后,通过 RF 预测两种类型的 miRNA-疾病关联,并将其组合成最终结果。实验结果和案例研究都表明,DFELMDA 是一种强大的计算工具,可用于新的 miRNA-疾病关联预测。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作图丫 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档