前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >BIB | 基于图采样GCN识别miRNA-疾病关联

BIB | 基于图采样GCN识别miRNA-疾病关联

作者头像
DrugAI
发布2021-05-24 15:17:42
9260
发布2021-05-24 15:17:42
举报
文章被收录于专栏:DrugAIDrugAI

作者 | 褚晏伊

今天给大家介绍上海交通大学魏冬青教授团队等人在Briefings in Bioinformatics上发表的一篇文章“MDA-GCNFTG: identifying miRNA-disease associations based on graph convolutional networks via graph sampling through the feature and topology graph”。该文章中,作者开发了一种新的基于图卷积神经网络的方法,用于miRNA和疾病的关联预测(MDA)。实验结果表明,该方法不仅可以有效的预测新的MDA,还可以预测新的miRNA和新的疾病。它的性能显著优于经典的机器学习算法和最新的MDA预测方法。

研究背景

miRNA通过靶向特定的mRNA和调节基因表达在各种生物学过程中起着至关重要的作用。许多研究证明,miRNA与人类复杂疾病的发展高度相关。因此,鉴定的miRNA和疾病之间的关联,不仅可以提高的疾病机制的认识,而且有助于疾病的预防,诊断和治疗。尽管鉴定MDA的实验方法具有很高的准确性,但它们非常耗时也非常昂贵。因此,开发识别MDA的计算方法是十分必要的。

网络科学是探索复杂生物系统的基础,它将生物分子作为节点,生物分子之间的相互作用作为边。图神经网络是探索生物网络的一种有前途的方法,在生物信息学应用中取得了令人满意的性能。据此,这项研究提出了一种MDA-GCNFTG方法用于MDA预测,并实现在六个不同的预测任务上。

预测任务

大多数现有的MDA预测方法都是在平衡数据上进行训练和测试的,它们将已知的MDA视为正样本,将未知的MDP视为负样本,然后对负样本采样使得正负样本的比例为1:1。值得注意的是,这种平衡数据的分布是不符合自然分布的。因此,尽管许多方法在这些平衡数据上都取得了良好的性能,但这并不意味着它们在实际任务上的高性能,因为测试集是不完整的。

另一方面,现有方法仅在训练和测试时考虑去预测新的MDA,尽管当前大多数方法会针对某些疾病进行案例研究,但仍不足以说明训练集中未出现的新miRNA和疾病的总体预测性能。

因此,该研究从上述两种视角出发,首次提出了关于MDA预测问题的六个实验任务:分别针对平衡和非平衡数据,预测新的MDP、新的miRNA和新的疾病。

特征构建

这项研究遵循了之前提出的大多数文章,采用了基于疾病语义相似性、miRNA功能相似性和GIP相似性的综合特征(图1)。

图1. 特征构建

算法概述

首先,定义特征拓扑图,该图以miRNA-疾病对(MDP)作为节点,以MDP是否为MDA作为节点标签。该图使用k-NN分类器构建边,对每个节点及其k个被正确分类的最近邻居之间添加边。k-NN算法能够充分地探索节点(即miRNA和疾病)特征和网络拓扑(即MDA),放大对分类起更大积极作用的信息,为MDA预测任务引入最有效的信息。作者使用MDP作为节点的原因有二:(1)类似的miRNA更可能关联相似的疾病,反之亦然。进一步的,相似的MDP往往具有相似的关联标签。因此,在此图上实施GCN算法将使相似的MDP节点得以聚类;(2)与异质图相比,同质图更易于训练。然后,在特征拓扑图上实现一种基于图采样的图卷积网络(GCN)算法。

由于传统的GCN方法通常会由于“邻居爆炸”现象而导致巨大的计算复杂度,很多工作都在探索如何通过层节点采样来降低训练成本。然而,这些方法仍面临着准确性、可扩展性和训练复杂性等方面的挑战。近年来,一些基于子图采样的方法被提出以解决上述问题。该研究对原始的特征拓扑图进行子图采样,并在每个子图上运行完整的GCN模型。为了确保子图保留在大多数原始边的同时,能够呈现出有意义的新的拓扑结构,该文章设计了基于边的采样策略,使得在同一子图中尽可能保留相互影响较大的节点。

图2. MDA-GCNFTG方法图

案例研究

该研究分别针对疾病和miRNA进行案例研究,这是首次在MDA预测领域进行了关于miRNA的案例研究。对于疾病,选择了肺肿瘤和乳腺肿瘤。对于miRNA,选择了与多种人类疾病相关的let-7 miRNA家族和hsa-mir-1。

该研究在两种类型的数据下,对案例研究的结果进行讨论:(1)该研究使用的2014年提出的HMDD v2.0数据库;(2)HMDD v3.2,miR2Disease和dbDEMC数据库的集成。实际上,数据(2)是基于数据(1)的更新和扩展。

表1列出了五个案例研究的结果和性能。显然,对综合数据进行的案例研究更令人信服,并且都显示出令人满意的结果,证明了所提出的MDA-GCNFTG方法能够预测未发现的针对新miRNA和新疾病的潜在MDA。两种数据上正样本数量和TP的差异也证实了这一观点,并反映出MDA-GCNFTG方法的性能在文章中被严重低估了。

表1. 案例研究。每个案例研究都是上述两种数据上执行的;Pos和Neg代表相应数据中正样本和负样本的数量;FP,FN和TP为预测结果的假阳性,假阴性和真阳性。Top n/m表示前m个新MDA中有n个被相应数据库确认是正确的。

参考资料

Yanyi Chu, Xuhong Wang, Qiuying Dai, Yanjing Wang, Qiankun Wang, Shaoliang Peng, Xiaoyong Wei, Jingfei Qiu, Dennis Russell Salahub, Yi Xiong, Dong-Qing Wei, MDA-GCNFTG: identifying miRNA-disease associations based on graph convolutional networks via graph sampling through the feature and topology graph, Briefings in Bioinformatics, 2021;, bbab165,

https://doi.org/10.1093/bib/bbab165

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-05-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档