前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICML 2024 | MolCRAFT:连续参数空间中基于结构的药物设计

ICML 2024 | MolCRAFT:连续参数空间中基于结构的药物设计

作者头像
DrugAI
发布2024-07-05 12:59:31
1170
发布2024-07-05 12:59:31
举报
文章被收录于专栏:DrugAI

DRUGAI

今天为大家介绍的是来自清华大学的周浩团队的一篇论文。近年来,用于基于结构的药物设计(SBDD)的生成模型显示出令人鼓舞的结果。现有的工作主要集中在如何生成具有更高结合亲和力的分子,忽略了生成的3D构象的可行性前提,从而导致假阳性。作者对在SBDD中应用自回归方法和扩散方法时出现的不良构象问题的关键因素进行了深入研究,包括模式崩溃和混合连续离散空间。在本文中,作者介绍了MolCRAFT,这是第一个在连续参数空间中运行的SBDD模型,并结合了一种新颖的降噪采样策略。实证结果表明,作者的模型在结合亲和力和更稳定的3D结构方面始终表现优异,证明了模型准确建模原子间相互作用的能力。据作者所知,MolCRAFT是第一个在相似分子尺寸下实现参考级Vina评分(-6.59 kcal/mol)的模型,较其他强基线模型大幅领先(-0.84 kcal/mol)。代码可在以下网址获得:https://github.com/AlgoMole/MolCRAFT。

SBDD通过利用生物靶标的三维结构,推动了药物发现的进展,从而促进了在特定化学空间内有效且合理地设计分子。近年来,用于分子生成的生成模型成为一个有前途的方向,它可以通过直接提出所需的分子,简化SBDD过程,消除了在广阔的化学空间中进行耗时的盲目搜索的需要。

现有的SBDD生成模型主要集中在生成具有较高结合亲和力的分子,但往往忽略了生成分子的3D构象的稳定性。这导致生成的分子尽管在结合亲和力上表现良好,但其结构可能是不现实的,甚至在物理上不可能。因此,这些分子在后续的对接软件调整中需要进行大量的修改和重构。

SBDD中生成模型面临的挑战

生成分子的失效模式

图 1

如图1所示,作者将SBDD中生成的不良分子分为三类:

(a) 几何形状扭曲。作者可视化了生成分子的中位应变能,发现模型倾向于生成过多不常见的3或4元环,或生成具有不稳定结构的超大环,这导致应变能大幅升高。

(b) 次优的结合模式。作者观察到,生成的配体构象在重新对接后发生了显著的重排,其中一些甚至违反了生物物理约束,与蛋白质表面产生空间冲突。这表明3D SBDD模型没有捕捉到真正的原子间相互作用,而是依赖于重新对接后的修正,这严重损害了直接在3D空间中生成分子的可信度。

(c) 生成失败。自回归模型倾向于错误地放置元素并提前终止,而扩散模型可能生成不完整的分子,导致样本效率低下。

分子模式崩溃

模式崩溃问题集中在SBDD方法的经验性能上,这些方法倾向于生成有限数量的特定(子)结构,其中基于原子的自回归模型表现出对某些模式的特别偏好。作者从化学和几何两个角度提供了定量结果。

表 1

化学评估如表1所示。为了衡量分子的分布,作者报告了在不同口袋上的平均独特样本百分比。可以看出,AR和Pocket2Mol的独特分子比例显著低于其他对比方法。此外,由于使用了先验簇,DecompDiff也被发现生成重复分子。在子结构水平上,作者报告了具有某些环类型的分子占所有环状分子百分比。正如Harris等人所指出的,Pocket2Mol表现出对更多融合环的偏好,而AR则明显倾向于生成重复的三元环。

图 2

从几何角度来看,如图2所示,基于原子的自回归方法对不同类型的键长建模相似,其中参考分布是多峰且不同类型间变化,而Pocket2Mol仅捕捉到单一模式,AR中不同键长的分布非常相似。

FLAG通过片段生成避免了崩溃,通过明确纳入最佳和多样的子结构,但它受到更严重的误差累积影响,导致显著的空间冲突和不理想的Vina评分。总的来说,自回归模型仍然陷入次优表现。直观上,这种限制可能归因于生成过程中施加的不自然的原子排序。

混合连续-离散空间

另一方面,基于扩散的模型通过非自回归生成在子结构分布方面成功缓解了模式崩溃问题。然而,不同模态之间的不一致性长期以来困扰着分子生成模型,正如MolDiff和EquiFM所建议的那样,这需要仔细设计不同的噪声级别或不同的概率路径。

一个关键见解是,混合连续-离散空间对准确捕捉分子的复杂数据流形构成挑战,其中扩散模型中的样本空间暴露于高方差,中间的噪声潜变量很可能超出流形。受到GeoBFN的启发,作者提出在完全连续的参数空间中操作,这使得输入方差显著降低,并向目标分布进行平滑变换。

图 3

为了进一步说明连续-离散扩散和完全连续的MolCRAFT之间的差异,作者对每个100个测试蛋白质分别采样10个分子,并绘制不同时间步长期间有效、完整分子的比例曲线。如图3所示,连续-离散扩散在后期步骤中严重依赖,通过在噪声级别较低时通过一定的有效性和完整性阈值,而MolCRAFT在前20%-40%的步骤中接近目标分布,从而具有更大的能力逐步细化和调整生成的可行结构,产生更好的构象。

模型部分

图 4

MolCRAFT的总体架构如图4所示。生成过程被视为发送者和接收者之间的消息交换,其中发送者仅在样本空间中可见,接收者根据其对样本和参数的理解进行猜测。在每一轮通信中,发送者根据发送者分布pS (yi | m;αi ) 对时间步ti应用噪声,然后将噪声潜变量y发送给接收者,这类似于正向扩散过程。这里,αi是由 β(ti) 得到的噪声因子。

另一方面,接收者根据其对先前参数θ的知识输出重构的分子,生成了输出分布pO。由于发送者的噪声因子α是已知的,接收者也可以对估计的输出添加噪声并给出预测的噪声潜变量,从而得到接收者分布pR。

该神经网络期望在给定参数θi-1、口袋p和时间ti的情况下重构干净的样本。

贝叶斯流网络(BFN)与扩散的关键区别在于引入了参数。由于基于贝叶斯推理定义的结构化贝叶斯更新,接收者能够保持完全连续的参数并对其参数信念进行闭式更新。贝叶斯更新分布pU源于贝叶斯更新函数h:

其中 δ(·) 是狄拉克delta分布。参数空间允许任意应用噪声,只要贝叶斯更新是可处理的,并消除了像扩散模型那样需要反转预定义的正向过程的需求。

需要注意的是,现有的BFN生成过程以及扩散模型的生成过程,在每个时间步长都对连续的原子坐标和离散的原子类型进行采样,这有引入过多噪声的风险,可能最终生成不完整的分子。为缓解这一问题,作者设计了一种经验有效的采样策略,该策略在参数空间内操作,从而避免在采样离散变量时引入进一步的噪声。

作者使用估计的直接更新下一步的参数,绕过了通过贝叶斯更新函数采样噪声数据的过程。整个生成过程在参数空间内进行,除了最后一步,这具有低方差的优势,并加速了整体生成路径,生成质量显著提高,采样步骤显著减少。

实验结果

表 2

如表2所示,作者报告了其模型与参考模型在结合亲和力下的Vina评分。

  1. 作者的模型在亲和力方面始终优于其他强基线模型,达到了参考级别的Vina评分(-6.59 kcal/mol)。 由于Vina评分直接评估了生成的构象,而Vina Min仅进行局部优化,它们直接衡量了生成构象的质量。 据作者所知,MolCRAFT是第一个在无需通过重新对接进行重大重排的情况下实现参考级别亲和力评分的模型,这表明模型在学习结合相互作用方面的优越性。
  2. Vina Dock可能被通过生成更大的分子来“作弊”。 直观上,更大的分子有更多机会与蛋白质表面形成相互作用。 对于最大的分子尺寸,Decomp-O实现了第二好的Vina Dock评分(-8.39 kcal/mol),远优于参考分子。 进一步研究表明,Decomp-O通过生成显著更大的分布外(OOD)分子获得了优势,从而在重新对接后达到了最高可能的亲和力。 为了公平比较,作者报告了按大小分层的DecompDiff和MolCRAFT变体,并且在与Decomp-O相同原子数的情况下,作者的模型始终实现了最先进的亲和力,突显了其在不同分子尺寸下的稳健性。

表 3

作者在表3中报告了参考分子和生成分子在键长、键角和扭转角分布上的平均Jensen-Shannon散度(JSD)。在全局结构层面上,作者报告了配体自身构象稳定性的应变能,并在表2中测量了结合复合物中的冲突,以及生成构象和重新对接构象之间的RMSD。

图 5

作者在图5中比较了生成速度(生成100个样本的平均时间)和生成成功率。作者在这两个维度上都实现了最先进(SOTA)的采样性能,以30倍的速度生成了更多完整(96.7%)的分子。虽然TargetDiff和DecompDiff平均分别需要3428秒和6189秒来生成100个样本,但由于作者改进的采样策略,模型仅需141秒。

结论

在本文中,作者首先研究了当前SBDD生成模型的挑战,即结构扭曲和次优的结合模式。基于对模式崩溃和混合空间的观察,随后提出了MolCRAFT,这是一种在连续参数空间中运行的SE-(3)等变生成模型,采用降噪采样策略,生成更高质量的分子。

编译 | 于洲

审稿 曾全晨

参考资料

Qu Y, Qiu K, Song Y, et al. MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space[J]. arXiv preprint arXiv:2404.12141, 2024.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-06-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档