
2023年10月20日,湖南大学曾湘祥教授、刘元盛老师团队在Briefings in Bioinformatics上发表文章Prediction of multi-relational drug–gene interaction via Dynamic hyperGraph Contrastive Learning。

作者提出了一种新的动态超图对比学习(Dynamic hyperGraph Contrastive Learning,DGCL)框架,利用药物和基因之间的局部和全局关系进行药物-基因相互作用预测。具体而言,DGCL采用图卷积提取药物和基因之间的显式局部关系。同时,动态超图结构学习和超图消息传递的配合使模型能够在全局区域内进行信息聚合。通过灵活的全局级信息,DGCL设计了一个自增强对比学习组件来约束超图结构学习并增强药物/基因表示的区分。实验表明,DGCL优于现有的方法,并体现了在缓解数据稀疏性和过度平滑问题方面的鲁棒性。
背景
药物-基因相互作用(DGI)预测在药物再利用、先导物发现和靶标检测等药物发现的各个领域占有重要地位。以往的研究表现良好,但局限于对单种相互作用的探索,忽略了其他相互作用关系。图神经网络由于其在药物基因二部图下建立关联的强大能力而成为一种很有前途的方法。尽管基于图神经网络的方法被广泛采用,但其中许多方法在无法获得高质量和足够的训练数据的情况下会出现性能下降。然而,在实际的药物发现场景中,相互作用数据往往是稀疏的和有噪声的,这可能导致令人不满意的结果。
方法
DGCL的总体框架如图1所示,DGCL首先构建一个二部图,然后通过传统的面向图的消息传递过程学习药物/基因的局部聚合嵌入。同时,DGCL通过设计的具有动态超图结构学习功能的超图神经网络(HGNN),找出全局语义邻居,对局部结构信息进行补充。此外,在局部拓扑视图和全局语义视图之间进行自增强图对比学习,以约束学习到的超图结构。基于上述精心设计的模块,DGCL能够有效预测药物与基因之间相互作用的类型。
在图1中,左边描述了交互图和动态超图的构建过程。黑色实线表示成对边,它只能连接两个节点。黄色圆角矩形表示超边缘,它能够连接两个或多个节点。在右边,每个节点通过对边(黑色实线)的本地消息传递(紫色虚线)与其邻居消息传递。此外,远程信息通过利用超边(黄色节点)作为中介,通过全局消息传递(虚线)进行传播。然后,通过(1)集成和(2)对比学习组件来桥接来自GNN和HGNN每层的嵌入。最终的药物/基因嵌入集合了局部信息和非局部信息,通过多层感知器(MLP)预测给定药物/基因对的相互作用类型。

图1 DGCL结构图
DGCL首先构造原始的药物-基因二部图来模拟观察到的相互作用。药物和基因之间的明确关系由节点的局部拓扑编码,采用了图卷积神经网络的简化版本来捕获图上的局部依赖。然而,尽管现有的基于图的模型能够提取观察到的DGI的局部结构信息,但难以从不变的图结构中了解药物或基因之间的潜在相关性。为了使DGI预测具有全局结构学习能力,突破上述局限性,作者提出了与模型训练一起优化的动态超图学习,从全局角度注入结构信息。相对于预定义的超图本身不能适应预测任务而导致性能次优的问题,本文提出的动态超图结构更加稳定。
根据初始二部图和特定任务监督信号的拓扑关系,可以在线构造反映药物和基因之间隐式依赖关系的超图,基于两个可学习的邻接矩阵进行动态超图结构学习。然而,当存在大量的超边或药物/基因时,计算药物/基因的超边矩阵的成本将会飙升。为了扩展到更多的超边和药物/基因,直接学习密集矩阵可能是不切实际的。为了解决这个问题,假设节点与超边的连接当它们的局部结构相似时,更有可能表现出相似。基于这个假设,用低秩矩阵近似药物超边矩阵和基因超边矩阵,以减小模型参数的大小,避免过拟合。
为了获取药物和基因之间的潜在关系,DGCL设计了超图消息传递层,该层在自适应超图上进行嵌入传播。根据HGNN,首先对药物/基因的嵌入进行聚合,生成超边嵌入。然后,通过聚合来自超边缘的信息来计算节点嵌入。在超图信息传递层中,药物和基因的信息可以通过一种打破距离限制的方式有效地传递。
上述模块将动态超图结构的学习与全局关系的探索相结合,在整个图上学习非局部消息,减轻了过度平滑。然而,当超图结构学习仅仅依赖于有监督信号时,会导致过拟合问题。作者从对比学习的成功实践中得到启发,提出了一种有效的对比学习范式,为约束学习到的超图结构提供辅助的自监督信号。该框架将原始交互图的局部拓扑感知嵌入与动态超图的全局语义感知嵌入进行了对比。与常用的图对比学习方法通过随机扰动对原始图进行增大产生两个额外视图相比,作者提出的自增强对比学习范式避免了对药物和基因信息编码的误导。
局部级和全局级嵌入作为两个自然增强的视图,将来自同一药物/基因的局部学习视图和全局学习视图的两个嵌入视为正对,并使用来自不同药物/基因的局部和全局嵌入的所有可能组合生成负样本。正对之间的距离最小,而负对之间的距离最大。上述对比学习引导局部特征监督基于全局特征的嵌入学习,首先聚合局部消息,然后传播非局部嵌入,结合局部-全局依赖嵌入来生成输入嵌入,并通过HGNN更新。最后,残差连接进一步用于计算最终的药物/基因嵌入,这个操作强调了每层输出的语义,避免了过度平滑的问题。
DGCL的目标是预测药物和基因之间的相互作用类型的分类任务,所以,将对比学习任务作为辅助任务,采用多任务学习策略与预测任务共同学习,优化交叉熵和对比学习的损失之和。
结果
作者将DGCL与一些具有代表性的方法进行了比较,如表1所示。在DrugBank和DGIdb这两个数据集上,DGCL的准确度均超越了现有方法,且显著超过了次优的方法CoSMIG。
表1 与其他方法对比

作者设计了消融实验,如表2所示。DGCLw/oCL和DGCLw/oHyper分别表示去除对比学习和去除超图学习的模型。完整的DGCL模型在准确度上超越了消融模型,表明所提出的超图全局结构学习和自增强对比学习对提升DGI预测性能具有贡献。
表2 消融实验

作者还进行了案例分析,使用DrugBank数据集对HMOX1基因进行了新的DGI预测。HMOX1具有良好的抗炎和抗氧化活性,是一种调节病变皮肤炎症反应的保护机制。表3详细介绍了DGCL预测的前10种新型DGI,包括药物的规范名称、预测的相互作用和支持的参考文献。这些预测没有出现在当前的数据集中,但更新的文献支持所预测的DGI。结果显示,排名前10位的药物中有7个得到了先前文献研究的证实。例如,DGCL预测雌三醇(Estriol)可能导致HMOX1表达增加。而先前研究表明,与绝经期患者相比,非绝经期患者(血液中雌激素水平较高)的HMOX1表达水平更高。女性的性激素缺乏似乎是影响女性牛皮癣进展的危险因素之一。因此,维持正常的生理水平,通过雌三醇治疗,可能潜在地预防或减轻疾病。
表3 案例分析

作者还根据药物对的嵌入相似度对所有可能导致多重副作用的潜在药物-药物相互作用进行排序。随后,使用来自多个数据库的证据验证了前10个预测的药物-药物相互作用。如表4所示,虽然在DGCL的训练数据集中没有引入不同药物之间的相互作用信息,但这10种预测的药物-药物相互作用中有7种已经得到证实。这表明DGCL通过仅基于DGI数据生成相似的嵌入来推断药物之间隐含相关性的能力。
表4 药物相互作用预测

总结
在这项工作中,作者提出了一种新的基于超图的框架,称为DGCL,用于在局部和全局区域执行消息聚合,以寻求更好的药物-基因关联建模。DGCL设计了动态超图结构学习和自增强对比学习,以提高预测性能和模型对抗过度平滑和数据稀疏性问题的鲁棒性。实验证明了所提出的DGCL的有效性和可泛化性。作者的工作表明,自适应超图可以为相互作用建模的有效手段提供有希望的前景,在未来的探索中,它可以广泛扩展到许多其他应用,如药物-药物相互作用预测和蛋白质-蛋白质相互作用预测。
参考文献
[1] Tao et al. Prediction of multi-relational drug–gene interaction via Dynamic hyperGraph Contrastive Learning. Brief Bioinform. 2023