首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >CGINet:大规模药物信息网络构建及图卷积预测模型

CGINet:大规模药物信息网络构建及图卷积预测模型

作者头像
DrugAI
发布2021-05-24 15:31:08
6450
发布2021-05-24 15:31:08
举报
文章被收录于专栏:DrugAIDrugAI

今天给大家介绍国防科技大学计算机学院王伟博士、吴诚堃副研究员等人发表于BMC Bioinformatics的一项研究工作“CGINet: graph convolutional network‐based model for identifying chemical‐gene interaction in an integrated multi‐relational graph”。在这项研究中,作者利用多个已有的生物医学关系知识库,构建了一个大规模药物信息网络,并提出一种化合物-基因相互作用预测模型。

1 研究背景

由美国食品药品监督管理局批准的药物中超过80%属于小分子化合物。这些小分子化合物主要通过作用于单个或多个基因/蛋白质靶点,以达到治疗的效果。充分掌握化合物与基因之间的相互作用关系(Chemical-Gene Interaction,CGI),不仅有助于发现药物开发过程中的新线索,而且对药物的重定位具有十分重要的意义。目前,根据所使用数据类型的不同,可以将化合物与基因相互作用预测的方法分为三种:基于生物医学文献的方法、基于生物分子结构的方法和基于生物信息网络的方法。基于生物医学文献的方法结合自然语言处理技术精心设计一系列语义特征,并利用机器学习模型解决关系提取问题。然而,此类方法局限于挖掘生物医学文献中已被证实且发表的相互作用关系,不能够预测未知的潜在相互作用。基于分子结构的早期研究主要集中于结合分子的三维结构,使用分子对接技术探索两个相互作用分子的结合模型,但其局限性在于严重依赖于可用且高质量的分子结构数据,并且通常需要耗费大量的计算资源。最近的研究主要以分子指纹、SMILES、SPS等形式描述化合物与基因的结构,利用机器学习模型从大量数据中自动提取分子的结构特征。基于生物信息网络的方法则利用生物分子之间的相互作用网络,预测目标节点之间的潜在链路。基于生物分子网络的方法不依赖于分子相互作用的特定说明或者分子的三维结构数据,与基于生物医学文献和生物分子结构的方法相比具有显著的优势,并且能够发现未发表的潜在相互作用关系。但是,目前大部分方法针对节点特征表示的学习,主要聚焦于一种或两种节点类型构成的简单网络,缺少考虑多种节点类型之间的复杂生物反应机制。

因此,作者构建了一个包含多种节点类型的大规模异构网络,并提出CGINet模型对化合物与基因节点之间的链路行预测。CGINet采用编码器-解码器(Encoder-Decoder)的框架,将CGI识别问题建模为异构图中化合物节点与基因节点之间的多关系链路预测任务,模型框架如图1所示。

图1. 模型框架

2 模型与方法

2.1 集成多元关系图

作者构建了一个包含化合物、基因以及生物通路3种节点类型的异构图/网络,其中生物通路能够反映出化合物与基因之间相互作用的分子机制。该异构图集成了多个公开数据库中与化合物/基因/生物通路相关的关系子图,包括4个二元关联子图(CC-graph、GG-graph、CP-graph、GP-graph)和1个多元关系子图(CG-graph)。该集成多元关系图包括了4,653,387种相互作用,覆盖了14,269种化合物、51,069种基因和2,363种生物通路。

2.2 图卷积解码器

编码器采用全图和子图两种视图聚合邻居节点的信息。全图视图将图作为一个整体输入编码器进行处理,子图视图则将全图切分为子图,先利用二元关联子图学习节点的初级嵌入,再使用初级嵌入初始化多元关系子图中的节点表示,并学习高层次的节点嵌入。

全图视图:利用一个2层图卷积网络对整个异构图进行编码,隐藏层的状态更新公式为,

子图视图:图切分为两个子图,包括二元关联子图(CC-graph、GG-graph、CP-graph和GP-graph)和多元关系子图(CG-graph)。利用二元关联子图学习得到节点的初级嵌入对多元关系子图中化合物节点和基因节进行初始化,网络结构如图2所示。

图2. 图卷积解码器

图3. S-G-P子结构

在多元关系子图中,基于推理假设利用S-G-P子结构(图3)获取潜在的链路。需满足以下条件才可以确定为潜在链路,其中表示包含的子结构数量,是阈值系数:

利用潜在链路对多元关系子图的拓扑结构进行重构,为节点特征的学习提供更丰富的邻域信息。因此,隐藏层的状态更新公式如下,其中表示通过潜在链路连接的新邻居节点,

2.3 张量分解解码器

解码器是一个张量分解模型,如图4所示。给定一种化合物和一种基因,解码器能够生成链路的概率值,即化合物与基因产生相互作用关系的可能性。

图4. 张量分解解码器

3 实验结果

3.1 不同阈值性能分析

这一部分研究了阈值系数的不同取值对模型性能的影响,取值越大时,潜在链路的数量越少。总体上,模型的性能随着阈值系数取值的增加而有所提升。

图5. 不同阈值的性能对比

3.2 总体性能分析

下表是CGINet与其他模型的总体性能对比结果。可以看出,总体上CGINet取得了较好的性能表现。相比于GCN模型,采用子图视图的CGINet利用初级节点嵌入初始化多元关系子图中的目标节点表示,能够为学习高层次的节点嵌入提供有价值的信息。此外,利用潜在链路网络拓扑结构的CGINet取得了较好的效果。这表明了更新节点的潜在邻居信息可以显著地为学习更有效的节点嵌入提供有价值的信息,并能够更好地化合物与基因的相互作用。

3.3 分类型性能分析

这一部分研究潜在链路对分类型的性能影响。从下图可知,相比于CGINet-1,采用潜在链路的CGINet-3在超过一半的相互作用类型上性能较优,而在其它类型上则表现出较差的性能。通过观察分析得到,采用潜在链路更新节点邻域信息的方式有助于提升部分相互作用类型的性能表现(例如,cleavage、sumoylation、metabolic processing等),而对部分类型则表现出消极的作用(例如,secretion、transport、reaction等)。另外,metabolic processing是cleavage、sumoylation和glucuronidation的父层级关系类型,说明模型倾向于识别具有相似深层作用机制的关系类型。

另外,从下表可知,尽管部分相互作用类型只有少数已知的CGI,但模型仍能够较好地识别出这些类型。这说明模型能够在不同的相互作用类型之间共享信息。

4 结论

作者提出一种基于图卷积网络的化合物与基因相互作用预测模型。CGINet采用子图视图的方法,使用初级节点嵌入初始化多元关系子图中目标节点的表示,学习得到高层次的节点嵌入。此外,基于推理假设发现潜在的链路能够为节点特征的学习提供更丰富以及有效的邻域信息。

代码

https://github.com/WebyGit/CGINet

参考资料

Wang, W., Yang, X., Wu, C. et al. CGINet: graph convolutional network-based model for identifying chemical-gene interaction in an integrated multi-relational graph. BMC Bioinformatics 21, 544 (2020).

https://doi.org/10.1186/s12859-020-03899-3

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-05-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1 研究背景
  • 2 模型与方法
  • 3 实验结果
  • 4 结论
  • 代码
  • 参考资料
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档