专栏首页智能生信arXiv|使用深度生成模型在3D空间上生成类药分子

arXiv|使用深度生成模型在3D空间上生成类药分子

今天给大家介绍的是北京大学来鲁华课题组在arXiv上挂出的预印论文《Learning to design drug-like molecules in three-dimensional space using deep generative models》。近年来,分子图的深度生成模型在药物设计领域受到了越来越多的关注。目前已经开发了多种模型来生成拓扑结构,但在产生三维结构方面的探索仍然有限。现有的方法要么关注于低分子量化合物而不考虑药物相似性,要么利用原子密度图来间接生成三维结构。在这项工作中,作者介绍了配体神经网络(L-Net),一种新的图生成模型,用于设计具有高质量三维结构的类药分子。L-Net直接输出分子(包括氢原子)的拓扑和三维结构,而不需要额外的原子放置或键序推理算法。实验结果表明,L-Net能够产生化学正确、构象有效的类药分子。最后,为了证明其在基于结构的分子设计中的潜力,作者将L-Net与MCTS结合,并测试其产生靶向ABL1激酶的潜在抑制剂的能力。

一、研究背景

人工智能辅助药物发现领域现有的大部分工作都集中在基于二维条件生成类药分子的二维(或拓扑)结构上。然而,三维信息对于设计具有高生物活性的分子非常重要。例如,蛋白质结构通常用于对接研究,配体信息可以用于构建活性预测的3D-QSAR模型,以进行基于结构的药物发现(SBDD)。因此,将分子的三维条件纳入深度生成模型是非常有必要的,但目前在这个方向上的探索相当有限,仍然存在许多问题需要解决。

引入3D信息的一种方法是将现有的基于SMILES的生成模型建立在3D数据上。然而,这些模型输出的分子不包含3D信息,通常需要一个额外的优化步骤来将分子嵌入到3D空间。一种更理想的方法是直接生成三维坐标。然而,这些方法主要集中在结构简单的分子上,例如QM9数据集中的分子,对类药分子的适用性目前尚不清楚。最近,Ragoza等人已经开始关注类药分子。他们的模型首先生成原子密度图,将其转换为原子位置,然后将这些空间点转化为分子结构。然而,它并不是一个端到端的方法,需要多个基于深度学习和基于规则的组件来共同工作生成最终的分子。

在本文中,作者开发了一个新的深度学习模型,用于端到端生成具有高质量三维结构的类药分子。该模型通过逐步添加新的原子和键到现有的结构上,生成并输出具有完整的三维坐标的结果,而不需要额外的处理步骤。

二、模型与方法

2.1 分子生成过程

生成模型的任务是生成分子图G=(V,E,A,B,X),其中V是节点(原子)的集合,E是边(键)的集合,A={av},v∈V是原子类型标签,B={buv},(u,v)∈E是键类型标签,X={xv},v∈V是每个原子的3D位置。

图1. 分子生成过程。(以环己烷为例)

模型以一步步的方式生成图。更具体地说,该模型通过迭代构建其生成树来生成一个分子图。G的生成树是一个包含G中所有节点的树状结构(见图1a)。在每次迭代中,将执行以下两个步骤来构建生成树(图1b):

1)节点选择:该模型从预先生成的5个合适原子中选择一个“焦点原子”。如果原子具有未满的化合价,则适合成为焦点原子。(参见图1c)。

2)树展开:模型将围绕焦点原子执行操作。向其添加新原子(“添加”操作)或将其连接到另一个现有原子(“连接”操作)。

在“节点选择”步骤中,模型在生成树中搜索,找到下一个聚焦原子:

1)如果当前的焦点原子有一个化合价尚未被填充的孩子原子,则模型将选择该原子作为下一个焦点原子。

2)如果存在多个这样的孩子,则按照一个排名方式选择级别最高的孩子。如果当前焦点原子没有这样的孩子,则执行“回溯”操作以查找具有这些孩子的祖先。然后选择那个孩子作为下一个焦点。

当没有适合成为“焦点原子”的原子时,即所有原子的化合价都是满的,则这个过程就终止了。在生成过程中,有各种各样的决策需要由模型作出:

1)在“连接”操作期间,模型需要决定使用什么类型的键去连接哪个原子;

2)在“添加”操作期间,模型需要决定应该添加多少个原子、它们的原子类型、三维位置,以及将它们连接到焦点原子的键的类型;

3)该模型还需要输出每个原子的排名,这将在节点选择步骤中使用。

这些决策都是使用L-Net架构的神经网络做出的。L-Net由两部分组成:第一部分是一个状态编码器,它将步骤i处的中间分子结构Gi映射为连续表示hi=fθ(Gi)。第二部分是一个策略网络,会根据当前状态为每个可用的操作分配一个概率值。为了使该网络能够生成类药分子,作者构建了ChEMBL数据集的类药分子子集,并创建了一个“专家轨迹”,用于生成数据集中的每个分子,然后通过模仿这些轨迹来训练L-Net。

2.2 状态编码器的架构

L-Net的状态编码器负责将当前的分子图Gi映射到连续表示hi=(hi,g,{hi,v}v∈Vi)=fθ(Gi),其中hi,g为图级别表示,{hi,v}v∈Vi是原子级别表示。fθ的架构如图2所示。该网络采用u-net结构。输入首先被输入到一个嵌入层中,以创建原子和键的输入表示。然后输入表示被传递到U-net中,它由卷积层、池化层和上池化层构建。卷积层采用了MPNN的架构,并被组织成DenseNet模块以提高性能。池化层和上池化层使用一种专门为这个用例设计的节点聚类方法。结果会被收集并发送给策略网络。

图2. 状态编码器的结构概述。a.状态编码器的整体结构。b.每个图卷积层的结构。c.每个池化层的结构。d.每个上池化层的结构。

2.3 嵌入层-原子和键类型的嵌入

原子和键类型的嵌入是通过可训练的查找表进行索引创建的。这些嵌入的维数是2。节点v的原子类型由三个变量组成的:元素类型、形式电荷,以及原子是否为焦点原子。每个变量分别单独嵌入,然后整合在一起。作者还向每个原子添加“时间编码”来记录原子添加到图中的时间。

2.4 图卷积层

状态编码器的主要组成部分是图卷积(GC)层。本工作中使用的GC架构与以前使用的类似,具有传播、收集和使用具有elu激活函数的线性层进行参数化更新操作 (如图2b所示)。唯一的区别在于收集操作。除了求和和最大化外,作者添加了注意力作为一种额外的简化方法来提高模型的表达能力。类似于之前的工作,作者在图中添加了“虚拟”键,以增加每个GC层的感受野的尺寸。

GC层被组织成多个DenseNet块(如图2所示)。DenseNet是一种旨在通过引入任意两层之间的短连接来提高更深层次网络的性能可扩展性的网络架构。DenseNet有三个主要超参数:增长率、瓶颈大小和网络深度。作者通过实验证明减少DenseNet块的深度或宽度都会损害模型的性能。

2.5 图U-net中的池化和上池化操作

U-net在与图像相关的像素级预测任务中取得了巨大的成功。它可以以较少的层数实现较高的感受野尺寸,同时显著减少训练期间的记忆消耗。在图生成中应用U-net的主要问题是,与图像和三维体素不同,没有典型的可以在图上执行池化和上池化的方法。为了在分子图上执行池化和上池化,作者设计了一个自定义的聚类方案:

1)在第一级聚类中,具有一个化合价的原子,如氢、卤素和羰基中的氧,被分解成它们的相邻原子。对于大多数分子来说,几乎有一半的原子是氢原子,消耗了大量的GPU内存。这种水平的聚类使我们能够通过将氢的信息压缩到其邻近的重原子中,从而有效地将氢包含到生成过程中;

2)在第二级聚类中,分子被分裂成环和链。这种方法以前被用于定义分子骨架,进而组织骨架数据集。破碎后,同一环或链上的原子聚集在一起;

3)在聚类的最终级中,所有节点都被分解为单个图级主节点。

图3给出了该方案的可视化展示。在定义了聚类方法后,可以定义池化和上池化操作,如图2c,d所示。

图3. 一种自定义的三层节点聚类方案,用于三层节点聚类操作。

2.6 策略网络

使用状态编码器创建当前状态Gi的连续表示后,再使用策略网络来决定应该执行哪些操作。回顾一下策略网络需要做出的决策的三种类型:

1)添加”操作过程中新原子的类型和位置;

2)在“连接”操作过程中,要连接的原子和连接键的类型;

3)要添加的新原子的等级;

在“添加”操作期间,创建一个或多个原子并添加到聚焦原子v’中。(如图4所示)将一个新创建的原子表示为元组v∗=(a,b,x),其中a是原子类型,b是用于连接新原子和焦点原子的键类型,x=(r,θ,φ)是这个新原子在局部坐标系中的球坐标。添加操作的策略网络可以写为:

其中,m是要添加的新原子数。与之前大多数用于3D分子的自回归模型相比,此方法在一次迭代中生成了所有连接到v∗的原子(图5)。这主要有两个优点。首先,它可以节省计算资源(因为状态编码器对每个步骤只运行一次)。其次,由于相邻原子的位置是高度相关的,一起生成它们可以隐性地提高模型的性能。

图4:与(a)3D分子生成中的大多数自回归模型不同,模型方法(b)将所有连接到焦点原子上的原子作为一个群生成。

对于“连接”操作中的每个可能的动作,首先计算其非归一化分数:

其中,MLP是全连接层。然后使用softmax对这些分数进行标准化:

向量

中的值

表示使用b类型的新键将焦点原子v’与v连接的概率。

表示跳过“连接A”操作并直接进入“添加”操作的概率。

当对生成的原子进行排序时,我们首先计算新原子的每个排列的一个非归一化分数:

然后是归一化概率:

然后排序从p(σ)中抽样进行。

三、实验结果

3.1 生成的样本、有效性和唯一性

作者构建了ChEMBL的一个类药分子子集,用于训练和评估该模型。图5显示了L-Net生成有效和唯一分子的能力。模型可以达到高达94.3%的输出有效性。对于%uniq,数值通常接近100%,表明没有过度训练或模式崩溃。注意,使用SoftMADE显著提高了模型的性能,表明朴素的MADE确实存在低维流形的问题。

图5. L-Net的性能,以有效性和唯一性来衡量

图6a显示了几个随机生成的样本的拓扑和3D结构。目测来看,这些分子具有正确的局部几何形状。例如,sp3和sp2杂化原子正确地采用了四面体和平面几何形状,芳香族体系正确地形成了平面结构。图6b中展示了具有有效化学结构的输出分子的百分比,这选择的超参数的影响。星形表示性能最好的超参数。

图6. a.L-Net随机生成的几个样本。b.具有有效化学结构的输出分子的百分比

3.2 分子性质的分布

作者研究了生成分子的拓扑性质。图7展示了使用不同的超参数组合生成的样本与验证集和测试集中的样本各种拓扑性质的平均值和标准差。图8给出了生成分子(蓝色)和测试集分子(灰色)的分布的可视化表示,使用核密度估计的概率值或连续性质的直方图。直方图下方也给出了箱线图。

可能会注意到的第一件事是,生成分子的性质往往比在测试集中更分散。这可以用表2中每个属性的标准差来证明。这表明该模型可能优先考虑模式的覆盖范围,而不是精度,精度和召回率值的结果也支持了这一点。每个性质的平均值都匹配得很好,对于分子量,差值小于10。还可以注意到,在生成的分子和真实分子的QED分布之间出现了很大的差异(图8f)。这是在数据选择过程中,硬截止值为0.5的结果。

图7. 利用不同的超参数生成的分子的二维分子性质分布。

图8:生成分子和测试集分子的二维分子性质的分布。a.分子量(MW)。b.LogP。c.氢键受体的数量(HBA)。d.氢键供体的数量(HBD)。e.可旋转键的数量(ROTB)。f.定量评估类药性(QED)。模型生成的分子为蓝色,测试集分子为灰色。

本文仅列出部分实验结果,详见原文。

四、总结

在这项工作中,作者引入了L-Net,一个新的深度生成3D类药分子的模型。先前在这一方向上的研究要么集中在结构简单的分子上,要么不是端到端的,需要结合多个组件和算法才能工作。相比之下,作者提出的方法直接输出分子的三维和拓扑结构,而不需要额外的原子放置或键序推断工作。实验结果表明,该模型能够产生化学正确、构象有效和类似药物的分子。


参考文献

Li, Yibo, Jianfeng Pei, and Luhua Lai. "Learning to design drug-like molecules in three-dimensional space using deep generative models." arXiv preprint arXiv:2104.08474 (2021).


本文分享自微信公众号 - 智能生信(gh_cb6c4859dc2a),作者:智能生信

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-09-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 开源 | CVPR2020 使用二叉空间分割生成3D 网格模型

    多边形网格普遍存在数字三维领域中,但在深度学习革命中却只发挥了很小的作用。当前领先的生成模型方法通过隐函数实现,并且需要在生成昂贵的iso-surface后,才...

    CNNer
  • 深度学习不是万灵药!神经网络3D建模其实只是图像识别?

    近几年,随着深度学习的大热,许多研究攻克了如何从单张图片生成3D模型。从某些方面似乎再次验证了深度学习的神奇——doing almost the impossi...

    新智元
  • Nat. Commun. | AGBT:将图和双向transformers融合的分子性质预测新工具

    今天介绍的 是北京大学深圳研究生院与密歇根州立大学合作发表在Nature Communications的一篇文章。

    DrugAI
  • 图神经网络在生化医疗方面的相关应用

    在生化领域,药物分子化合物、蛋白质等经常被作为研究对象。以分子为例,它是一个天然的图结构,可以将分子中的原子看作节点,将化学键看作边,研究分子的化学性质就可以看...

    博文视点Broadview
  • Survey | 基于图卷积网络的药物发现方法

    本期介绍2019年6月发表在Briefings in Bioinformatics的综述,该综述由康奈尔大学等机构的研究人员撰写,系统总结了GCN及其在药物发现...

    DrugAI
  • RDKit | 化学信息学与AI(专辑)

    介绍RDKit相关知识点和运用以及RDKit作为处理化学、生物、药学和材料学科中分子数据作为可输入机器学习和深度学习模型的重要工具应用。内容涵盖了基于RDKit...

    DrugAI
  • Nat. Com. Sci. | 计算设计可合成分子

    设计新分子有许多重要的应用,跨越不同的科学领域。例如,新药研发就是其中的一种应用,在这种应用中,可以创造新的分子来作用于疾病的潜在靶点。新分子也可以被设计成新材...

    DrugAI
  • 基于点云 / RGBD的3D视觉检测技术

    3D视觉技术相较于2D视觉能获取更丰富更全面的环境信息,已经成为机器人导航、无人驾驶、增强/虚拟现实、工业检测等领域的关键技术.当前基于2D的的计算机视觉技术日...

    SIGAI学习与实践平台
  • SLAM综述之Lidar SLAM

    SLAM包含了两个主要的任务:定位与构图,在移动机器人或者自动驾驶中,这是一个十分重要的问题:机器人要精确的移动,就必须要有一个环境的地图,那么要构建环境的地图...

    点云PCL博主
  • 年终收藏! 一文看尽2020年度最「出圈」AI论文合集

    疫情之下,通过各种方式,全球的研究者继续积极合作,发表了许许多多有影响力的成果——特别是在人工智能领域。

    新智元
  • SLAM综述-Lidar SLAM

    SLAM包含了两个主要的任务:定位与构图,在移动机器人或者自动驾驶中,这是一个十分重要的问题:机器人要精确的移动,就必须要有一个环境的地图,那么要构建环境的地图...

    3D视觉工坊
  • 新冠肺炎肆虐,看机器学习如何大展手脚,更有效地协助医药研发

    最近,Deepmind 发布了利用其基于机器学习的 AlphaFold System 所实现的与引起 COVID-19 的病毒有关的蛋白质结构的预测结果 [25...

    机器之心
  • 学界 | 牛津大学ICCV 2017 Workshop论文:利用GAN的单视角图片3D建模技术

    选自arXiv 机器之心编译 参与:李泽南 对于现实世界物体的 3D 建模是很多工作中都会出现的任务。目前流行的方法通常需要对于目标物体进行多角度测量,这种方法...

    机器之心
  • DrugVQA | 用视觉问答技术预测药物蛋白质相互作用

    鉴定新的药物-蛋白质相互作用对于药物发现至关重要,基于机器学习的方法利用药物描述符和一维(1D)蛋白质序列已经开发了许多鉴定方法。这些方法一般都是通过将配体,蛋...

    DrugAI
  • 异质人脸识别研究综述

    人脸识别(Face Recognition),是指对输入的图像或视频,判断其中是否存在人脸,进而依据人脸的面部特征,自动进行身份识别。 其过程可分为人脸检测、人...

    SIGAI学习与实践平台
  • 3D重建:硬派几何求解vs深度学习打天下?

    一直以来,研究人员都希望能够赋予机器和人类感官一样的感知,其中就包含视觉。作为人类最重要的感官之一,人类接受到的信息中超过 70% 来源于双眼。人的眼睛可以感知...

    机器之心
  • BIB|基于机器学习的药物与靶点相互作用预测方法综述

    近年来,药物科学家一直高度关注依赖于现有药物知识的新型药物开发策略。事实上,药物发现任务的困难在于已知的药物与基因相互作用位点的了解不充分,而主要风险在于药物与...

    智能生信
  • CV困境如何破:训练样本有限、2D视觉平面 VS 3D真实场景...

    有一天,伯克利研究院来了一位生态学家。他希望可以运用现代计算机视觉技术,基于他所拍摄的野生动物照片做一个动物识别系统。这听起来就是一个基本的图像分类问题,所以研...

    机器之心
  • 何恺明最新论文:VoteNet 3D目标检测,华为提出:基于NAS的人脸识别算法,程明明等开源:PoolNet实时显著性目标检测

    最近论文真的很超级多,而且很多吸睛话题论文:CornerNet-Lite,CenterNet,NAS-FCN等。2019年4月23日,arXiv上放出了很多优质...

    Amusi

扫码关注云+社区

领取腾讯云代金券