前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NeurIPS 2021|分子的三维构象集的扭转几何生成

NeurIPS 2021|分子的三维构象集的扭转几何生成

作者头像
DrugAI
发布2021-12-01 17:04:05
7130
发布2021-12-01 17:04:05
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 厉小明 审稿 | 贺小龙

今天给大家介绍的是NeurIPS 2021上一篇来自MIT的论文。在化学信息学和药物发现领域中,从分子图中预测分子的三维构象集具有关键的作用,但现有的生成模型存在严重的问题,这包括缺乏对重要分子几何元素的建模,优化阶段容易出现累积误差,需要基于经典力场或计算代价昂贵的方法进行结构微调。作者团队提出GEOMOL模型,一种端到端、非自回归和SE(3)不变的机器学习方法来生成低能分子三维构象的分布。利用消息传递神经网络(MPNN)捕捉局部和全局信息的能力,我们能预测局部原子的3D结构和扭转角,这样的局部预测即可用于计算训练损失,也可用于测试时的完整构象。作者团队设计了一个非对抗性的基于损失函数的最优传输来促进多样的构象生成。GEOMOL优于流行的开源、商业或最先进的ML模型,同时速度得到了显著提升。我们希望这种可微的三维结构生成器能对分子建模和相关应用产生重大影响。

1

概述

问题和重要性 作者团队解决了分子构象生成(MCG)的问题,即根据分子图预测小分子的低能三维构象集(图1)。单个构象由相应分子中每个原子的3D坐标列表表示。在这项工作中,训练数据由分子图和相应的能量良好的三维构象集组成。

在化学信息学和计算机药物发现等领域,处理分子的自然三维结构是非常重要的,因为构象决定了生物、化学和物理特性。例如,在药物设计中,了解一个分子如何与特定的靶蛋白结合是至关重要的,这一过程主要取决于两个组件的3D结构,无论是几何方面(形状匹配)还是化学相互作用(疏水/亲水)。

图1 从输入的分子图生成低能三维构象集

动机和现有方法的挑战 MCG的主要挑战来自于由键长、键角和扭角组成的庞大3D结构空间。然而,可能构象的空间随着图的大小和可旋转键的数量呈指数增长,因此对于相对较小的分子,其构象也可能是无穷无尽的。尽管如此,在不同的环境中,ML模型已经很好地解决了维数问题的许多方面,我们的目标是建立在最近为MCG所作的ML工作之上。

分子构象可以通过实验确定,但代价非常昂贵,于是预测计算模型得到了发展,传统上分为随机或系统(基于规则)方法,作者列举了各自的特点和优缺点,或多或少存在一定的问题。这两种方法都可以结合距离几何(DG)技术生成初始3D构象,但作者提出了DG存在的几个问题,与端到端模型相反,DG容易产生误差累积。

我们的主要贡献和模型 在这项工作中,作者团队主要探讨下面这个问题:我们能否从分子图中设计出高质量、具有代表性、多样性和泛化性的低能量三维构象集的快速ML生成模型?

为了解决这个问题,我们提出了GEOMOL(图2),它具有以下特点:

  • 它是端到端可训练的、非自回归的、并且不依赖DG技术
  • 它以SE(3)不变(平移/旋转)方式对构象建模
  • 它明确地建模和预测扭转角和局部3D结构(每个原子附近的键距离和键角),并且我们不会过度参数化这些预测
  • 我们使用MPNN和自我注意网络联合预测它们
  • 通过使用最优传输,GEOMOL只需要最小化对数似然损失,就能找到和真实构象的最佳匹配
  • 我们在两个基准上进行实验: GEOM-QM9(与气相化学相关的小分子)和GEOM-DRUGS(类药物分子)
  • GEOMOL在几秒钟或更短的时间内处理类似药物的分子,而不牺牲质量

图2 GEOMOL模型描述

2

方法

问题设置和符号描述 一个构象就是一个从图形结点到三维坐标的映射,简写为。表示X和Y之间的距离;是逆时针角;是二维平面和的逆时针二面角。对应的真实值用*号标记。距离函数使用原子位置均方根偏差(RMSD)。

2.1GEOMOL 高级概述

我们的方法如图2所示,包括三个步骤。首先,我们通过将自注意层和MPNN与手性中心的确定性相结合,预测每个非末端原子的局部3D结构(LS),键距和键角由预测的LS计算得出。接下来,我们通过预测扭转角并对齐它们来组装所有相邻的LS对,由于LS是固定的,因此仅预测每个键的二面角就足够了。最后,在测试时,我们将所有预测的相邻LS对集合起来,构造完全构象。为了生成不同的构象,我们将随机高斯噪声附加到每个初始节点,并使用基于最佳传输的损失函数进行训练。

2.2局部结构(1-hop)预测模型

对于图3,每个非终端顶点X有n个邻居,我们预测其局部3D结构,即所有Ti的相对位置。通用的模型是一个应该满足置换等价性的函数,即无论X的次序如何,每个相邻Ti的3D位置都不应改变。作者选择的是transformer的编码器部分,没有任何位置编码,因此满足置换等价性。

图3 对于每个非末端原子,我们以置换等价的方式预测X的每个邻居的相对3D位置

强制实现距离一致性 我们希望LS模型f()是距离一致的,即任何键距离d(X,Y)都是相同的,无论是从X还是Y的LS计算出来的。为了实现这一点,我们使用上述transformer仅计算键方向,同时使用单独的对称模型获得键距离。

四面体手性校正 四面体手性是立体化学的一种常见形式,它限制了具有四个不同邻域的中心原子的相邻取代基的三维位置。仅使用分子图不能区分手性中心(图4),但存在解决方案。也就是说,给定围绕中心的相邻3D坐标的有序集合,即p1,p2,p3,p4∈R3,相邻四面体的体积符号为

对映体结构的有向体积有相反的符号。因此,在为四面体中心生成LS时,我们计算定向体积,这确保了所有手性中心的准确生成。

图4 手性:即使两个显示的图形是同构的,它们也具有独特的3D结构,可以按顺序区分碳中心的邻居

2.3扭转角表示和LS组装

一旦预测了每个原子的LS,我们就将它们成对地组装起来,对应于分子图中的每个非末端键。作者描述了连接原子X和Y的键的这个过程,见图5。

2.4多样构象生成的最优传输(OT)损失函数

单个构象的损失 假设我们预测单个构象C,基于所有LS和扭转角预测,确定地计算所有1/2/3-hop和扭转角,如果相应的真值已知,我们将这些量输入负对数似然损失,用L(C,C*)表示。

处理节点对称性 我们目前的公式难以区分距离小于3-hop的对称图节点对,例如氢基团。我们在图6中举例说明的定制匹配损耗来解决这一问题。

图6 引入匹配损失来区分对称图节点,两组中的氢预测都有明显改善

3

实验结果

结果和讨论 结果如表1和表2所示,GEOMOL在测试时可以使用不同的噪声标准运行,这取决于用于对哪个度量指标感兴趣。我们的模型超过了OMEGA、RDKit等流行的开源、商业软件和最近的ML模型,如GraphDG和CGCF,有时还有很大的优势。对于定性的见解,在图7中有生成的示例。

表1 GEOM-DRUGS数据集上的结果,所有模型均未进行FF微调。R和P表示Recall(召回率)和Precision(精确性)。注:OMEGA是一款成熟的商用软件。

表2 GEOM-QM9数据集上的结果,见表1的标题。

此外,我们在图7中展示了COV召回结果如何受到测试分子中旋转键数量增加的影响。正如预期的那样,拥有更多的可旋转键会使问题变得更加困难,这会影响所有基线方法,但GEOMOL保持了合理的覆盖范围,甚至更多困难分子。

运行时间 图7显示了构象生成的测试运行时间。我们的模型是考虑的基线方法中最快的,比CGCF或ETKDG/RDKit快得多。此外,对于旋转键数量不断增加的分子,GEOMOL更适合缩放。

图7 左边:生成结构的示例,对于每一个模型,我们都展示了最佳的生成构象,以最小的RMSD显示真值。右上:每个DRUGS测试分子的可旋转键数与COV召回率(95%置信区间)。右下:每个模型的构象生成时间。

4

总结

作者团队提出了GEOMOL,这是一种端到端的分子三维构象生成方法,它明确了模拟了分子几何的各个方面,如扭转角或手性。作者预计,这种可微结构生成器将显著影响小分子构象的产生以及许多相关应用,从而加速药物发现。

限制和未来的工作 首先,作者团队的模型目前不支持非连通的分子图,但它可以应用于每个连接的组件,然后进行三维对齐。接下来,这个方法将受益于长距离相互作用的显式建模,特别是对于大环或大分子,这仍然需要以有效的方式加以解决。第三,明确使用真值的能量值能进一步改善GEOMOL。最后,作者还期待着对GEOMOL的应用进行微调,例如为4D QSAR生成分子对接姿态或描述符。

参考资料

https://github.com/PattanaikL/GeoMol

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-11-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档