前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Pocket2Mol : 基于3D蛋白质口袋的高效分子采样

Pocket2Mol : 基于3D蛋白质口袋的高效分子采样

作者头像
DrugAI
发布2022-06-10 15:39:01
1.3K0
发布2022-06-10 15:39:01
举报
文章被收录于专栏:DrugAI

编译 | 侯琳琳 审稿 | 王梓旭

本文介绍由xingang peng等人发表于ICML上的文章:Pocket2Mol: Efficient Molecular Sampling Based on 3D Protein Pockets。作者提出了一种新的可以满足口袋施加的多个几何约束的采样方法:Pocket2Mol,这是一个由两个模块组成的 E(3)-等变生成网络,它不仅可以捕获结合口袋原子之间的空间和键合关系,还可以在不依赖 马尔科夫链蒙特卡洛方法(MCMC)的情况下从易于处理的分布中以口袋表示为条件对新候选药物进行采样。实验结果表明,从 Pocket2Mol 中取样的分子具有明显更好的结合亲和力和其他药物特性,例如药物相似性和合成可及性。

1

介绍

深度学习在药物设计方面取得了巨大成功。生成模型主要思想是在紧凑的低维空间中高效地表示所有收集的化学结构,并通过扰乱隐藏值来采样新的候选药物。这些模型的输出可以是一维化学描述符、二维图(graph)和3D结构。

然而,在分子水平上,小分子仅通过与特定的蛋白质口袋结合来抑制或激活特定的生物学功能。因此,基于口袋的药物设计受到越来越多的关注。更具体地说,给定目标蛋白的 3D 结合口袋,这些模型知道 3D 口袋的几何信息,并相应地生成与口袋结合的分子。早期的方法通过集成评估功能(例如采样分子和口袋之间的对接分数)来修改无口袋模型,以指导候选搜索。另一种方法将 3D 口袋结构转换为分子 SMILES 字符串或 2D 分子图,但是没有明确建模小分子结构和 3D 口袋之间的相互作用。条件生成模型可以模拟 3D 口袋结构内的 3D 原子密度分布。然后这个问题的挑战点从学习分布转移到结构采样算法的效率上。此外,以前的模型过分强调原子 3D 位置的重要性,而忽略了化学键的产生,这导致在实践中原子连接不切实际。

作者从以下方向改进了基于口袋的药物设计:第一,开发一种新的深度几何神经网络来准确地模拟口袋的 3D 结构;第二, 设计一种新的采样策略,以实现更有效的条件 3D 坐标采样;第三,将采样一对原子之间的化学键的能力分配给Pocket2Mol模型。Pocket2Mol模型利用基于向量的神经元和几何向量感知器学习蛋白质口袋施加的化学和几何约束,通过共享原子级嵌入联合预测前沿原子、原子位置、原子类型和化学键,并以自回归方式对分子进行采样。由于基于向量的神经元,该模型可以直接生成相对于焦点原子的相对原子坐标的易处理分布,以避免使用传统的 MCMC 算法。实验结果表明,Pocket2Mol 采样的候选药物不仅表现出更高的结合亲和力和药物相似性,而且比最先进的模型包含更真实的子结构。此外,Pocket2Mol 比以前基于 MCMC 的自回归采样算法快得多。

2

方法

Pocket2Mol 的中心思想是根据已经存在的原子来学习口袋内每个位置的原子或键类型的概率分布。为了学习这种特定于上下文的分布,作者采用自回归策略从训练药物的其余部分预测随机屏蔽的部分。

2.1生成步骤

形式上,蛋白质口袋表示为一组带有坐标

的原子,其中 和 分别是第 i 个重原子及其坐标,N 是蛋白质袋的原子数。以连续方式对分子进行采样。已经生成的具有 n 个原子的分子片段表示为坐标

。其中、和分别代表第 i 个重原子、它的配位和与其他原子的价键。模型记为φ,生成过程定义如下:

对于每个原子,产生过程由四个主要步骤组成,如图一所示。首先,该模型的前沿预测因子FRO将预测当前分子片段的前沿原子。前沿被定义为可以共价连接到新原子的分子原子。如果所有的原子都不是前沿,则表明当前分子是完整的,生成过程终止。第二步,该模型从前沿原子集中抽样一个原子作为焦点原子。

图一:Pocket2Mol的生成步骤

第三步,基于焦点原子,模型的位置预测器预测新原子的相对位置。最后,模型的原子元素预测符和键型预测符将预测元素类型和与现有原子的键类型的概率,然后采样新原子的元素类型和价键。通过这种方式,新原子被成功地添加到当前的分子片段中,生成过程继续下去,直到找不到前沿原子。

基于上述生成过程,模型需要由四个模块组成:编码器、边界预测器、位置预测器和元素和键预测器。

2.2训练

在训练阶段,作者随机掩蔽分子的原子,并训练模型恢复被掩蔽的原子。具体地说,对于每个口袋配体对,从均匀分布U[0,1]中抽样掩蔽比率,并掩蔽相应数量的分子原子。其余与被屏蔽原子有价键的分子原子被定义为边界。然后,位置预测器和元素键预测器试图通过预测掩蔽原子朝向相应前沿的位置、元素类型和与剩余分子原子的键,来恢复与前沿原子具有价键的掩蔽原子。对于元素类型预测,作者在查询位置增加了一个不表示任何内容的元素类型。

前沿预测的损失是预测前沿的二元交叉熵损失。位置预测器的损失是掩蔽原子位置的负对数可能性。对于元素类型和键型预测,作者使用交叉熵损失进行分类,分别表示为和。总损失函数为:

作者采用Adam优化器同时对编码器和所有三个预测器进行优化。

3

实验结果

3.1评估采样分子的性质

测试集中的分子与不同方法产生的分子的一般性质的比较如表一所示。

表一:测试集中的分子与不同方法产生的分子的一般性质的比较。

总的来说,Pocket2Mol的性能优于其他两种方法。Pocket2Mol分子的VINA得分不仅好于其他计算模型,而且好于测试集中的分子,这表明Pocket2Mol有潜力生成与口袋具有更好亲和力的分子。特别是,Pocket2Mol成功地在一半的口袋中产生了比自然存在的分子更好的分子,几乎是其他两种方法的两倍。Pocket2Mol的药物势能(QED、SA、LogP和Lipinski)也明显好于其他化合物,这表明Pocket2Mol产生的分子更有可能成为候选药物。此外,Pocket2Mol产生的分子与训练集中的分子的相似性最低,这表明Pocket2Mol不仅仅是记忆训练数据。Pocket2Mol的多样性低于其他方法。多样性度量通常被用来量化分子生成的质量,而没有考虑蛋白质口袋引入的约束。对于这种基于口袋的任务,更好的模型捕捉口袋的几何景观不一定会实现更高的多样性,因为蛋白质口袋具有很强的特异性,这也是为什么生物化学家往往需要几十年的时间才能设计出一种药物的部分原因。最后,Pocket2Mol的生成时间大约是AR模型的十分之一,这得益于直接生成原子位置,而不是使用MCMC随机探索大的3D空间。

3.2子结构分析

许多方法可以在常规指标上取得合理的良好性能,如结合亲和力和QED,但其样本分子的详细子结构是不现实的。因此,作者首先将生成的分子可视化,发现AR产生的分子包含大量扭曲的苯环和过量的三原子环,如图二所示。由三个原子组成的环结构在数据集中很少见(3%),以前的两种方法都产生了高达30%的三原子环子结构,这显然是由于算法偏差造成的。为了系统地研究这个问题,作者分析了不同大小的环结构在训练集中的比例以及不同方法产生的分子。作者的假设是,即使样本分子的化学结构可能与测试集不同,但基本官能团和亚结构的分布应该保持不变,否则将给分子生物学家理解这些分子的生物学功能带来额外的困难。

图二:产生的分子与三个口袋结合的例子

如表2所示,Pocket2Mol产生的分子与测试集显示的不同大小的环的比例比其他两种方法更相似。特别是,CV、AE和AR都倾向于产生额外的三元环,这是由于在使用OpenBabel生成原子之后添加化学键而引起的。相比之下,Pocket2Mol通过联合学习原子和键的分布并预测生成过程中的键,产生了更现实的化合物。此外,对于常见的五元环和六元环,Pocket2Mol在所有三个模型中也达到了与训练集和测试集最相似的比率。

表二:数据集中和用不同方法生成的分子中包含不同大小环的分子所占的比例。

表三:键角和二面角与测试集的KL发散度

作者进一步用Kullback-Leibler(KL)散度来评估采样分子的键角和二面角的分布是否与测试集一致。如表三所示,Pocket2Mol生成的分子比其他方法的KL发散度小得多,说明Pocket2Mol生成的分子捕捉到了更多的几何属性数据。

此外,为了确保生成的三维分子构象的有效性,作者计算了生成的分子结构与RDKit预测结构之间的均方根误差(RMSD)。由于一个分子可以有多个潜在的构象,作者使用RDKit为每个分子采样了20个构象,并选择了RMSD最小的一个。生成分子的RMSD分布如图三所示。Pocket2Mol生成的分子结构通常具有最低的RMSD,表明3D分子结构的正确性。

图三:生成的3D分子结构的RMSD分布。

4

结论

生成用于蛋白质口袋的3D类药物分子是一项重要但具有挑战性的任务。在这项工作中,作者设计了 Pocket2Mol,这是一个由图神经网络组成的 E(3) 等变生成网络,用于对 3D 蛋白质口袋的化学和几何特征进行建模,并设计了一种新的有效算法来对新的 3D 候选药物进行采样.实验证明,Pocket2Mol生成的分子不仅具有更好的亲和力和化学性质,而且包含更真实和准确的结构。

参考资料

论文:https://arxiv.org/abs/2205.07249

代码:https://github.com/pengxingang/Pocket2Mol

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档