前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun.|使用条件生成神经网络逆向设计 3D 分子结构

Nat. Commun.|使用条件生成神经网络逆向设计 3D 分子结构

作者头像
DrugAI
发布2022-03-25 13:49:34
2090
发布2022-03-25 13:49:34
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 沈祥振 审稿 | 郭梦月

本文介绍了柏林工业大学机器学习小组的Niklas W. A. Gebauer和Michael Gasteggerh等共同发表在Nature Communications的研究成果:本文提出了一个条件生成神经网络,用于具有特定化学和结构特性的 3d 分子结构的设计。这种方法与化学键合无关,能够从条件分布中对新分子进行有针对性的采样,即使在参考计算稀疏的领域也是如此。通过生成具有特定基序或组成的分子,作者发现了特别稳定的分子,并联合针对训练方案之外的多种电子特性,证明了所采用的方法在逆向设计中的实用性。

1

研究背景

一些领域,如药物设计、催化和能源材料,都需要识别具有特定特性的化合物。由于对广阔的化合物空间进行详尽的探索是不可行的,因此这些领域的进展可以从逆向设计方法中受益匪浅。

在这项工作中,作者提出了条件 G-SchNet (cG-SchNet),这是一种用于分子逆向设计的条件生成神经网络。基于 G-SchNet,该模型根据结构或化学性质学习条件分布,从而使我们能够对相应的 3d 分子结构进行采样。该网络的架构旨在生成任意大小的分子,并且不需要指定目标成分。因此,它了解分子的组成与其物理特性之间的关系,以便对表现出给定目标特性的候选样本进行采样。该条件方法允许在训练完成后搜索具有任何所需目标属性值集的分子。它能够联合针对多个属性,而无需重新训练或以其他方式间接限制采样过程。这为模型利用训练数据的全部信息提供了基础,从而提高了泛化能力和数据效率。

2

模型与方法

2.1神经网络架构

cG-SchNet是一种条件生成神经网络,下图是其总体架构。

图1 带有输入和输出的 cG-SchNet 架构的示意图

“ ⊕ ”表示串联,“ ⊙ ”表示 Hadamard 积。图1可切分为左中右三部分来看。在图1左,未完成分子的原子特征向量用 SchNet 提取,并单独嵌入条件,然后连接以提取条件特征向量。确切的嵌入取决于条件的类型(例如,标量或向量值)。在图1中,从提取的特征向量预测下一个原子类型的分布。而在图1右,基于提取的特征向量和下一个原子的采样类型,模型预测下一个原子与未完成分子中每个原子/标记之间的成对距离分布。

3

实验结果

3.1 训练cG-SchNet 进行分子合成

图2展示了使用 cG-SchNet 生成靶向 3d 分子的有关信息。图 2a 表示将原子位置和类型的条件联合概率分解为一系列概率,以便一个接一个地放置单个原子。图 2b 是从依赖于目标的条件概率分布中采样分子的结果。图 2c 是原子放置循环的示意图,包括辅助标记、模型预测和局部 3d 网格分布的重建。在训练期间,作者最小化了预测分布和参考计算中已知的真实分布之间的交叉熵损失。

图2 使用 cG-SchNet 进行分子生成

3.2 生成具有指定基序的分子

为了对具有特定基序的分子进行采样,作者将 cG-SchNet 设置在基于路径的 1024 位长指纹上,该指纹可检查多达七个原子的所有线性段的分子图。根据看不见的分子的指纹进行采样,即训练期间未使用的结构。图 3a 显示了四个示例的结果。

图3 使用 cG-SchNet 有针对性地探索化学空间

总体而言,作者看到使用 cG-SchNet 的条件采样对目标指纹敏感,并允许生成具有所需结构基序的分子。尽管四个指纹目标中的三个在训练数据中没有具有相同指纹的分子,但 ML 模型成功地生成了完美匹配的分子,证明了它具有泛化和探索化合物空间中看不见的区域的能力。

3.3 低能构象的发现

对训练数据中具有缺失的属性值的分子进行采样的能力是有针对性地探索化学空间的先决条件。作者通过在一组随机采样的 55k QM9 分子上训练 cG-SchNet 来研究这一点,并查询模型以采样低能 C7O2H10 异构体——QM9 中最常见的成分。

作者为此定义了相对原子能,它表示与数据集中相同组成的其他分子相比,每个原子的内部能量是相对高还是低。负值表示相对较低的能量,因此比该组合物的平均结构具有更高的稳定性。生成的具有低、中和高相对原子能的 C7O2H10 异构体的示例如图 4a 所示。我们观察到具有高应变度的小环型构象表现出更高的相对原子能值。

图4 不可视化合物的低能异构体的发现

3.4 针对多种特性:发现具有小 HOMO-LUMO 间隙的低能结构

对于大多数应用,合适的分子是经由多种特性指导而寻找得来的。因此,一种探索方法需要允许同时指定多个条件。在这里,作者通过针对 HOMO-LUMO 间隙以及相对原子能(即同时具有两种复杂的电子特性)来证明这种能力。

图 5 比较了从 cG-SchNet 和有偏的 G-SchNet 获得的 HOMO-LUMO 间隙小于 4.5 eV 的生成的、独特的、看不见的分子集。

图5 具有小 HOMO-LUMO 间隙的低能结构的发现

作者得出的结论是,cG-SchNet 已经学会构建具有低 HOMO-LUMO 间隙的稳定分子,与训练数据中满足两个目标的结构相比,它能够从目标域中采样到更多数量的看不见的分子。通过这种方式,可以一次针对多个属性,以有效地探索化合物空间。

4

总结

cG-SchNet模型的主要优点:能够以多种结构和化学特性的任意组合为条件,有针对性地发现 3d 分子结构。与以前的方法相比,该模型不需要针对特定目标的偏置程序。相反,显式条件使 cG-SchNet 能够从所有可用的参考计算中有效地学习。可以同时针对多个属性的期望值从特定条件分布中采样。通过这种方式,cG-SchNet 生成了新的 3d 候选分子,这些分子以高概率表现出目标特性,因此非常适合使用 ML 力场进行进一步的过滤和评估。

未来展望:未来工作的方向是将 cG-SchNet 架构应用于探索更大的系统和更多样化的原子类型;将 cG-SchNet 与不同领域的已建立方法进行扩展比较,例如,用于发现药物或材料,以确定有希望的应用和可能的缺点。

参考资料

Gebauer, N.W.A., Gastegger, M., Hessmann, S.S.P. et al. Inverse design of 3d molecular structures with conditional generative neural networks. Nat Commun 13, 973 (2022).

https://doi.org/10.1038/s41467-022-28526-y

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-02-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像处理
图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档