前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于大规模预训练和图结构学习的药物协同组合预测

基于大规模预训练和图结构学习的药物协同组合预测

作者头像
DrugAI
发布2023-02-17 11:35:12
8010
发布2023-02-17 11:35:12
举报
文章被收录于专栏:DrugAI

报道人:赵宏博 审稿人:肖宇航

本文介绍一项由中国香港中文大学计算机科学与工程学系、百图生科以及阿卜杜拉国王科技大学计算生物科学研究中心联合研究工作。在这项研究中,作者利用来自涵盖各种药物相关方面的数据集进行大规模预训练模型,并利用图结构学习开发出一个无偏的、可推广的药物协同预测模型。

简介

药物联合治疗因其多样的优点在传统和现代医学中得到了广泛的应用。随着实验技术的发展,研究人员能够开展高通量药物筛选(HTS),这也使得药物组合协同效应数据大幅增加,也有助于评估用于预测新型药物组合的计算机方法。然而,体内和体外实验并不能完全一致,体外实验无法复原体内药物作用的方式,这意味着仍然存在影响HTS有效性的障碍。

近年来,随着计算机技术的进步,一些机器学习模型和神经网络在大协同空间中寻找新的药物组合候选药物方面很有前景,例如已提出的DeepDDS和DeepSynergy等方法。然而,由于这些研究和预测通常基于单一数据库,它们的预测目标通常保留在特定途径、细胞系或常见组织中,一些组织仍然研究不足。开发出一个无偏的、可推广的药物协同预测模型对解决研究不足的组织问题至关重要,其中关键挑战之一是领域偏移数据集问题:不同组织的体外药物反应可能多种多样。

幸运的是,在系统地整合多个药物协同数据集的数据库的帮助下,我们提出了一个准确预测协同效应的端到端深度学习框架来解决上述问题。

方法

我们的方法利用多模态数据、图神经网络和大规模无监督训练来整合和学习有用的信息以进行协同预测,可分为以下四个部分:

1.预处理:描述了数据集操作和特征预训练;

2.异构图:提供图构建、图神经网络、协同预测头信息;

3.图结构学习:介绍了Drug-Target预测模块、Drug-Drug相互作用模块和图结构学习细节;

4.自我训练和推理:总结了自我训练策略和执行推理。

图1. 药物协同组合预测框架概述

具体来说,该模型以药物的化学结构图和细胞系的蛋白质表达作为输入,并应用预先训练的分子图转换器将药物图转换为嵌入。同时,该模型利用蛋白质语言模型为表达中的每个蛋白质生成嵌入,为了丰富更多功能,我们还应用RotatE从PrimeKG获取疾病的嵌入。接下来,利用图神经网络,并将生成的嵌入作为节点表示。为了推断未见过的药物,模型加入了Drug-Drug相似边缘和Drug-Target模块/Drug-Drug相互作用模块来生成伪边缘,并形成了具有更丰富信息的精炼图。最后,在图之上构建一个协同预测头,并充当感知器(MLP)来预测协同效应。另外模型还包括一个自我训练策略,以利用组合空间中的大量数据。

结果

在DrugComb数据集上的交叉验证

我们在DrugComb数据集上与选择了最先进的七种方法进行比较。结果如表2所示,我们在除ACC和Precision之外的所有指标上都取得了最佳结果。具体来说,对于最重要的测量AU ROC和F1-Score,我们比第二好的方法DeepDDs高出约2%,比经典ML方法高出近20%。值得注意的是,所有方法在DrugComb上的整体性能都相对较高,因此我们的方法和其他方法之间的差距并不是很大。

由于这是一个二元分类任务,正确类别中的预测分数越高,模型的性能就越好。如下图2.a和b将我们的方法与DeepDDS和DeepSynergy进行了比较。我们将它们子采样到1100个数据点,大多数点分散在对角线下方和两个子图的右侧,表明我们不仅获得了正确的标签,还获得了高预测分数。小提琴图是所选四种深度学习方法的预测分数分布,我们的方法获得了最高的预测分数。

图2:在DrugComb和阿斯利康的性能分析。

在领域偏移数据集上的精准预测

我们在阿斯利康发布的领域偏移数据集上进行评估,以检测跨域推理的性能。阿斯利康的数据样本包括大量模型未曾见过的药物和细胞系,这会导致性能有所下降。本次实验的所有方法都在完整的DrugComb数据集上进行训练,并在阿斯利康数据集上进行推理。

表3总结了我们在阿斯利康数据集上的表现,总体观察到整体性能的下降。与DrugComb测试相比,我们模型的AU ROC和F1-Score有所下降,但注意到排名其次的DeepDDS或MR-GNN在AU ROC上从0.94明显下降到0.72,这些影响可能是由于数据领域偏移导致。我们的模型与DeepDDS模型的裕度得到扩大,这是一个实质性的改进。从结果来看,在100个测试样本中,我们的模型可以比DeepDDS减少14个以上的错误病例。

F1-Score的结果与我们的模型在不平衡数据上表现类似。图2.d和e中的大多数数据点更多分散在对角线下方和右侧,这表明我们在阿斯利康数据集上取得了更显著的结果。图 2.f 中的小提琴图显示了四种深度学习方法的预测分数分布,我们的模型获得了最高的置信度。

推断独立药物和细胞系

为了进一步测试我们模型的泛化能力,我们进一步研究在独立药物和细胞系上的表现。首先,我们创建了两个数据集,这些独立数据是在跨域设置的基础上从阿斯利康指定的,分别包含了39种独立药物和10种独立细胞系。表4总结了我们在这两个独立场景中的表现。在未曾见过的药物研究中,我们的方法仍然保持相对较高的AU ROC和AU PRC超过80%。

从下图3.a和b可以清楚地观察到,大多数数据点都在对角线下方和右侧,这表明,我们的模型比DeepDDS和DeepSynergy更能预测未曾见过的药物。图3.c显示了预测分数和药物相似性之间的趋势,回归趋势显示了我们整体的稳健表现。图3.d和e的结果显示了我们的模型的预测置信度非常高。相反,DeepDDS和DeepSynergy很难做出正确的决定。在图3.f,我们的模型对细胞系频率的变化表现稳定。在某种程度上,这两个数据扰动实验验证了我们的模型在具有挑战性的任务上保持了较高的能力。

图 3:独立药物和细胞系的性能。

消融实验

我们进行了一项消融研究,以评估我们的子模块的有效性:分别是自我训练策略和预训练的DDI和DTI。我们对DrugComb和阿斯利康进行消融研究。表5显示了所有四种型号均提供高AU ROC、AU PRC和F1-Score,我们的原始模型在所有指标中一直最佳。结果表明,我们的自我训练策略和预测模块很好地挖掘了更多关于药物和蛋白质的有用信息,并且有助于我们的模型在药物组合效应预测中表现得更好。

同时,我们发现,即使使用 “Ours-PS”,其在DrugComb上也取得了不错的结果,这可以归因于我们在所有实例中创新地使用了丰富的嵌入,这对我们的性能有巨大且明显的影响。

超参数设置

我们图神经网络的每一层都基于输入和输出为512维,增加头为4、8、12的图注意力网络。用于协同分类的MLP预测具有3072、768和128个维度的隐藏层。对于DTI和DDI预测模块,我们使用1个带有8个头部的注意力块来编码蛋白质或药物表示,并使用2个带有12个头部的注意力块来处理它们的级联嵌入。遵循具有2048和256个隐藏层维度的MLP来预测结果。我们以10-4的学习率和0.2的丢弃率进行训练。

总结

大多数已知的药物组合预测方法利用一种或两种特征,其发现能力仅仅限于少数细胞系或组织,它们无法处理新药物。我们开发了一个端到端模型,以促进药物组合的检测,汇总各种类型的药物相关信息。包括交叉验证、独立测试、消融研究和未见测试集实验在内的综合实验,我们的模型的表现始终优于其他同类模型。由于大规模预训练模型在许多领域都显示出辉煌的成果,因此扩展我们的模型来完成多任务是一个有前景的研究方向。

参考资料

Hu, Z., Yu, Q., Guo, Y., Wang, T., King, I., Gao, X., Song, L., & Li, Y. (2023). Drug Synergistic Combinations Predictions via Large-Scale Pre-Training and Graph Structure Learning. ArXiv, abs/2301.05931.

https://arxiv.org/abs/2301.05931

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-02-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档