前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >JCIM | 组合分子动力学模拟和深度学习预测小分子迁移自由能

JCIM | 组合分子动力学模拟和深度学习预测小分子迁移自由能

作者头像
DrugAI
修改2021-02-02 11:43:55
1.3K0
修改2021-02-02 11:43:55
举报
文章被收录于专栏:DrugAIDrugAIDrugAI

作者/编辑 | 王建民

导读

准确预测小分子的配分和疏水性在药物发现过程中至关重要。细胞和整个人体内有许多异质的化学环境。例如,药物必须能够穿过疏水性的细胞膜才能到达细胞内的靶点,而疏水性是药物与蛋白质结合的重要驱动力。原子分子动力学(Molecular Dynamics,MD)模拟常用于计算小分子与蛋白质结合、穿过脂质膜和溶解的自由能,但计算成本很高。机器学习(Machine Learning, ML)和经验方法也被用于整个药物发现,但依赖于实验数据,限制了适用性的领域。研究人员提出了原子MD模拟计算15,000个小分子从水转移到环己烷的自由能。数据集被用来训练预测迁移自由能的ML模型。结果表明,空间图神经网络模型达到了最高的精度,紧随其后的是三维卷积神经网络,而基于化学指纹的浅层学习的精度明显较低。

介绍

分子动力学模拟(MD)和机器学习(ML)已广泛用于药物发现中。研究的应用范围包括蛋白质-配体结合、蛋白质-蛋白质相互作用、分配系数和脂质膜渗透。MD模拟的好处是可以计算出原子细节和热力学性质,例如结合的自由能。缺点是计算成本,这限制了可以研究的小分子的数量。对实验数据进行训练并使用化学指纹和/或分子特征后,ML模型在预测小分子特性方面非常强大。缺点是依赖于稀疏的训练数据,这限制了模型的适用范围。对于ML模型,很难解释其预测和/或导致新的化学见解的物理机制。因此,需要构建可以利用MD和ML方法优势的模型。

疏水性是关键的分子性质,可用于许多药物发现应用。建立药代动力学模型时,药物疏水性是重要的参数。聚集和与血液蛋白的非特异性结合是药物失效的一些关键原因,并且与每个小分子的理化特性有关。传统上,已经使用小分子在水和有机溶剂(logP)之间的大量分配来估计被动膜的渗透。疏水性在小分子药物发现中的重要性已通过Lipinski规则来说明。许多不同的实验来确定logP,并且有许多模型估计疏水性。但是,这些通常依赖于对实验数据的拟合。原子模拟已被广泛用于研究疏水效应,因为水的熵是明确考虑的。捕获熵对小分子溶剂化的贡献对于计算其自由能很重要,但必须对许多构型进行采样。界面呈现出更加复杂的环境,其中甚至简单的水-空气界面由于水的有序性也处于异构环境。

自由能是MD模拟中计算最多的属性。自由能与给定状态的概率成正比,因此与许多实验可观测值成正比。原子自由能通常被认为是计算药物-蛋白质结合的最准确方法之一。计算自由能差是计算上的需求,因为必须“采样”系统的所有相关配置。因此,预测分子的自由能变化并非无关紧要,而且训练有素的ML模型可以探索比单独使用MD可能更多的分子的特性。MD模拟已被广泛用于研究跨脂质双层的小分子分配和渗透。可以通过计算自由能曲线和扩散系数曲线来确定可以通过实验测量的渗透系数。鉴于存在大量可能的小分子药物,希望有一个能够在速度和计算成本,准确性和人类可解释性之间取得平衡的模型。

ML已广泛用于药物发现中。ML模型表明成功与否取决于训练数据,意味着对新分子和不同分子的过度拟合和推断不足是一项根本挑战。对于蛋白质-配体结合,包含新的3D空间信息的ML模型已显示出优于传统分子特征浅层学习方法。连接MD和ML的最新工作表明,从MD模拟获得的3D分子特征可以改善药物-蛋白质结合的预测。

集成MD和ML计算,研究人员构建了ML模型来预测原子MD的自由能。作为一个简单的测试系统,选择了自由能在主体溶剂(水和环己烷)之间进行小分子分配。MD模拟用于计算15,000个转移的小分子自由能,以训练模型。最好的模型所达到的精度与MD自由能计算所期望的精度相似。通过将3D原子分子特征与ML模型的传统分子指纹进行比较,可以得出使用原子数据的改进。通过在一组独特的分子(世界认可药物的子集)上测试模型,可以显示ML模型的模型可传递性。这项工作可洞察小分子的热力学性质,将MD数据与ML建模联系起来,并为将来的应用和方法开发生成有价值的数据集。

结果

分子动力学自由能计算

使用MD模拟构建用于ML预测的数据集,以计算小分子从水转移到环己烷的自由能。首先在整个水-环己烷系统中使用了伞形采样;然后,使用相对热力学积分(TI)自由能计算。

小分子性质与迁移自由能相关

为了解决影响界面或环己烷与水溶性的分子特性,研究者将平均分子特性与通过MD模拟计算得到的自由能进行了比较。总体而言,散点图显示了ΔG W–I和ΔG W–C之间的松散相关性。

机器学习模型用于预测迁移自由能

从15,000 MD的自由能计算中,研究者测试了许多ML方法来预测转移自由能。对于简单的浅层学习模型,使用具有浅岭回归的Morgan分子指纹进行了测试。还从MD数据构建了更复杂的3D-CNN和SG-CNN。ML模型构建的第一步是将数据分为训练数据和测试数据。对于小分子化学信息学,数据拆分至关重要,因为化学空间非常大,而训练数据可能稀疏,相对较小和/或相关。

用于预测自由能的3D-CNN和SG-CNN的体系结构

讨论

这项工作的目的是检验使用ML从MD模拟数据预测复杂热力学量的可行性。为此,研究人员为15,000个小分子产生了自由能,这些小分子从水转移到界面并转移到大体积的环己烷。这些自由能用作标记来训练3D-CNN,该3D-CNN基于短模拟和分子特征的原子特征。结果表明,利用ML模型可以预测MD的自由能,其准确性接近MD计算的误差。

使用ML预测小分子化学性质变得越来越普遍。关键问题仍然在于如何表示分子以及预测对其他分子和数据集的可传递性。通过在MD数据上训练ML模型,能够解决其中的一些问题,因为与实验不同,可以访问导致自由能计算的基础数据和参数。结果表明SG-CNN的性能优于3D-CNN,并且均优于分子指纹。显示了使用从仿真得出的其他数据来改善所有ML模型的预测。

通过在小分子数据集上训练ML模型,然后在不同的世界药物集上进行测试,探索了预测的可传递性。结果强调了3D-CNN和SG-CNN如何能够保留相对准确的预测。介绍如何在两种自由能上训练3D-CNN,从而改善预测并减少离群值预测的数量,这表明多任务学习是提高ML化学预测准确性的一种有价值的方法。

参考资料

Predicting Small Molecule Transfer Free Energies by Combining Molecular Dynamics Simulations and Deep Learning.W. F. Drew Bennett, Stewart He, Camille L. Bilodeau, Derek Jones, Delin Sun, Hyojin Kim, Jonathan E. Allen, Felice C. Lightstone, and Helgi I. Ingólfsson. Journal of Chemical Information and Modeling Article ASAP.

DOI: 10.1021/acs.jcim.0c00318

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-09-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档