前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >JCIM|DENVIS:使用具有原子和表面蛋白口袋特征的图神经网络进行可扩展和高通量的虚拟筛选

JCIM|DENVIS:使用具有原子和表面蛋白口袋特征的图神经网络进行可扩展和高通量的虚拟筛选

作者头像
智药邦
发布2022-11-16 18:20:49
5810
发布2022-11-16 18:20:49
举报
文章被收录于专栏:智药邦智药邦

2022年9月26日,希腊DeepLab的Krasoulis等人在Journal of Chemical Information and Modeling上发表文章。作者提出了DENVIS(DEep Neural VIrtual Screening),一种使用具有原子和表面蛋白袋特征的图神经网络进行可扩展和高通量虚拟筛选的新型算法。DENVIS使用原子和表面特征的组合进行蛋白质口袋建模,实现了具有竞争力的先进的虚拟筛选性能。

概要

虚拟筛选的计算方法可以通过识别特定目标的潜在hit,显著加快早期药物发现。对接算法传统上使用基于物理的模拟,通过估计查询蛋白-配体对(protein-ligand pairs)的结合方向和相应的结合亲和力得分来解决这一挑战。近年来,经典和现代机器学习体系结构显示出超越传统对接算法的潜力。

然而,大多数基于学习的算法仍然依赖于蛋白质-配体复合物结合姿势的可用性,通常通过对接模拟进行估计,这会导致整个虚拟筛选过程严重放缓。

在氨基酸序列水平上处理目标信息的一系列算法避免了这一要求,但代价是在更高的表示水平上处理蛋白质数据。

本文引入了深度神经虚拟筛选(DENVIS),这是一种使用图形神经网络(GNN)进行虚拟筛选的端到端管道。在两个基准数据库上进行的实验,表明这种方法在几种基于对接、基于机器学习和基于混合对接/机器学习的算法中具有竞争力。

通过避免中间对接步骤,DENVIS表现出比基于对接和混合模型快几个数量级的筛选时间(即更高的通量)。与具有可比筛选时间的基于氨基酸序列的机器学习模型相比,DENVIS实现了显着更好的性能。该方法的一些关键要素包括使用原子和表面特征组合的蛋白质口袋建模,模型集成的使用,以及在模型训练期间通过人工负采样进行数据增强。总之,DENVIS实现了与最先进的虚拟筛选性能相比的竞争力,同时提供了使用最少的计算资源扩展到数十亿分子的潜力。

方法

DENVIS通过对每个目标蛋白的所有可能配体进行排序来解决虚拟筛选问题。排名是通过对给定目标的所有蛋白质-配体对的结合亲和力得分的估计来进行的。DENVIS利用GNN分别提取配体和蛋白质的高维连续矢量表示。然后,这些载体通过外产物层结合,并传递到一个回归网络,预测每个蛋白质-配体对的多个结合亲和力指标,如图1a所示。

DENVIS遵循两种蛋白质口袋建模方法,一种基于原子特征,另一种基于3D表面表示。原子级模型由图同构网络(GIN)[2]组成,这是一种通用但功能强大的GNN实现,已用于生物和化学应用。表面级方法使用混合模型网络(MoNet)[3],一种特殊的GNN,具有考虑输入流形几何的卷积运算。作者从蛋白质口袋表面网格中提取化学和几何特征。对于配体特征提取,采用原子级方法,如图1b所示。

DENVIS将两种蛋白质口袋表示方法的预测与后期融合相结合。作者首先使用两种方法独立地训练模型。然后将蛋白质-配体对的最终得分计算为两个不同模型的加权平均得分,如图1c所示。

图1. DENVIS模型图

在原子域中,DENVIS为每个分子(蛋白质口袋或配体)提取九个节点和三个边缘特征。节点特征包括原子序数、手性标记、度、形式电荷、显式氢的数量、自由基电子的数量、杂化以及指示原子是否芳香和是否在环中的两个二元特征。边缘特征包括键类型、键立体化学和指示键是否共轭的二元特征。所有原子节点和边缘特征都被视为类别变量。

利用表面级方法,DENVIS提取了蛋白质袋表面的几何和化学特征。几何特征包括形状指数和距离相关曲率,这是一个8D矢量。化学特征包括亲水作用、连续静电和自由电子/质子。然后,将结合界面定义为距离结合配体3埃(Angstrom)半径内的表面节点。在这种情况下,节点对应于提取的3D曲面网格上的顶点。

蛋白质和药物的结合亲和力预测,在不同的数据集上被分别建模为回归问题和二分类问题(蛋白质-配体对是否有活性)。本文在基于回归预测的PDBbind数据集[4]上训练模型,在基于二分类预测的DUD-E数据集[5]上测试模型。

在PDBbind中,蛋白质和药物的结合亲和力已通过以下三种方法之一进行实验验证:解离常数(Kd)、抑制常数(Ki)和半最大抑制浓度(IC50)。实际任务中常预测其负对数,即:pK = −log10{Kd, Ki, IC50}。PDBbind数据库定期更新,并分为三个子集,即通用集(general)、改进集(refined)和核心集(core)。本文采用2019年版本的PDBbind数据库(PDBbind v2019),将问题建模为回归预测,损失函数是在pKd, pKi, pIC50这三个指标预测任务上的均方误差之和。在PDBbind v2019的通用集和改进集上训练的DENVIS分别命名为DENVIS-G和DENVIS-R。

结果

作者对比了DENVIS-G, DENVIS-R和多种先进算法的有效性。除了采用在二分类问题上常用的AUROC(ROC曲线下的面积)作为测试指标之外,作者还引入了两个在化合物虚拟筛选中使用的二分类指标:富集因子(enrichment factor,EF)[6]和玻尔兹曼增强判别(Boltzmann enhanced discrimination)ROC (BEDROC80.5)[7]。表1表明,DENVIS-G在以上三个指标中均表现最好,而DENVIS-R次之。

表1:不同方法的对比

作者进一步测试了具有不同特征类型的DENVIS模型的性能。PR曲线如图2所示,可见原子级别特征和表面级别特征的组合具有更高的AUPR(PR曲线下的面积)。因此可以证明,每类特征都在一定程度上提高了DENVIS的性能。

图2. 不同特征DENVIS的对比

总结

本文研究了融合原子级别和表面级别表示的蛋白质-药物亲和力预测模型,并通过使用图神经网络,显著改进了对蛋白质-药物互相作用关联的预测。

参考文献

[1]Krasoulis et al., DENVIS: Scalable and High-Throughput Virtual Screening Using Graph Neural Networks with Atomic and Surface Protein Pocket Features, J Chem Inf Model, 2022

[2]Xu et al., How powerful are graph neural networks, in ICLR, 2019

[3]Monti et al., Geometric deep learning on graphs and manifolds using mixture model CNNs, in CVPR, 2017

[4]Wang et al., The PDBbind Database: Methodologies and Updates, J Med Chem, 2005

[5]Mysinger et al., Directory of Useful Decoys, Enhanced (DUD-E): Better Ligands and Decoys for Better Benchmarking, J Med Chem, 2012

[6]Su et al., Comparative assessment of scoring functions: the CASF-2016 update. J Chem Inf Model, 2018

[7]Truchon et al., Evaluating virtual screening methods: good and bad metrics for the "early recognition" problem, J Chem Inf Model, 2007

--------- End ---------

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-10-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档