前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >基于分解和重组的分子图的生成方法

基于分解和重组的分子图的生成方法

作者头像
DrugAI
发布2023-09-19 14:35:09
1830
发布2023-09-19 14:35:09
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自Masatsugu Yamada 和 Mahito Sugiyama的一篇关于分子生成的论文。在药物发现和材料设计中,设计具有所需化学性质的分子结构是一项重要任务。然而,由于候选分子空间的组合爆炸,找到具有优化所需性质的分子仍然是一项具有挑战性的任务。在这里,作者提出了一种全新的基于分解和重组的方法,该方法不包括任何在隐藏空间中的优化,并且生成过程具有高度的可解释性。该方法是一个两步过程:在第一步的分解阶段,对分子数据库应用频繁子图挖掘,以收集较小规模的子图作为分子的构建模块。在第二步的重组阶段,通过强化学习引导搜索理想的构建模块,并将它们组合起来生成新的分子。实验证明,作者方法不仅可以在惩罚性log P和药物相似度这两个标准指标下找到更好的分子,还可以生成显示有效中间分子的药物分子。

由于可能存在的药物样分子数量估计在10^23到10^60之间,设计具有所需属性的新药物和材料的分子是一项具有挑战性的任务。尽管已经研究了各种类型的表示方法,但分子本质上是具有节点和边属性的图形结构。化学化合物的图形结构使得即使您可以构建一种定量结构-活性关系(QSAR)模型,该模型是一种用于揭示化合物结构性质与生物活性之间关系的计算建模方法,并通过为虚拟筛选设计化学特征描述符,也很难生成具有期望活性或性质的有效分子。生成分子的一种直接方法是通过从分子结构估计的目标函数来解决逆向QSAR问题。然而,从分子图中提取的特征向量往往在其特征之间高度相关,这使得从优化的描述符重构新的分子图形变得具有挑战性,因为它需要保留这种相关信息。此外,分子通常被视为三维结构,以便可以计算3D描述符以更准确地预测所需属性。逆向设计三维分子结构也具有很大的挑战性,因为必须考虑原子的配位。

近期,针对候选药物分子发现的先进方法采用了深度生成模型。使用生成模型的基本思想是学习分子的潜在表示,从而能够在学习到的潜在化学空间中重构和探索满足目标属性的分子。特别是对于三维分子生成,不仅需要图形结构,还需要构象和原子之间的距离作为额外的节点属性。基于贝叶斯优化等探索方法用于搜索潜在化学空间。然而,从潜在空间重建分子图以及通过从训练数据集中推断来搜索具有所需属性的分子是困难的,因为潜在空间的很大一部分对应无效分子。搜索理想分子的另一种策略是基于强化学习。在强化学习的设置下,智能体学习最优策略以最大化累积奖励,并且经过训练的智能体可以采取行动生成最优的分子。当将每个分子表示为简化的分子输入行记录系统(SMILES)格式的字符串时,智能体根据优化策略采取下一个SMILES字符的行动,其中经常使用递归神经网络(RNN)生成字符串。在使用强化学习进行分子图生成的情况下,智能体采取选择原子类型和节点之间的键类型的行动来扩展每个分子。状态通过使用RNN或图神经网络表示为潜在特征向量。然而,无论是SMILES生成还是逐节点的分子图生成方法都存在一个问题,即中间步骤不代表有效分子,这显著降低了生成分子的可解释性。此外,如果出现环结构,属性和状态会发生根本性的变化,对于连续潜在空间的优化来说,处理这种响应是困难的。

作者提出了一种新颖的分子生成方法,称为MOLDR (MOLecular graph Decomposition and Reassembling),通过将训练数据集中的分子图分解为子图,并以不同的方式重新组装这些获得的子图,生成优化的新分子。化学性质取决于子图的组合,这些子图对应于化学信息学中的功能基团或分子的图案,并且当适当的亚结构包含在分子中时,可以进行优化。具体而言,MOLDR由分解步骤和重新组装步骤组成。在分解步骤中,首先将每个分子图转换为树结构,以高效地获取子图,即功能基团,然后通过应用图挖掘方法提取频繁的子图结构。在重新组装步骤中,将提取的子图视为分子图的构建模块,并通过使用强化学习根据目标性质搜索所需的模块,以自回归的方式重新组装它们。虽然MOLDR可以使用其他优化方法,如蒙特卡洛树搜索(MCTS),但在这项研究中始终使用强化学习,因为在分子生成的背景下已经被证明是有效的。

模型结构

图形是一个元组 G = (V, E),其中 V 和 E 分别表示节点和边的集合。如果将图形视为分子,则 V 是原子类型的集合,E 是键类型的集合。对于两个图形 G = (V, E) 和 G′ = (V′, E′),如果 V′⊆V 和 E′⊆(V′ × V′) ∩ E,则称 G′ 是 G 的子图,表示为 G' ⊆ G。设 f(G) 是图形 G 的某种化学性质,通常是一个实值函数,并且我们假设在事先已知 f 函数,并且我们可以计算任何图形 G 的 f(G)。例如,f 可以是分子 G 的 log P 值。给定一个分子数据集,该数据集是一组图形的集合,分子生成的问题是尽可能长时间地探索具有较高f(G)值的新图形。

在给定作为输入的分子数据集中,作者的想法是应用频繁子图挖掘(frequent subgraph mining)方法,该方法可以找到在数据集中频繁出现的所有子图。作者使用常用于频繁子图挖掘任务的 gSpan 算法。该算法以深度优先的方式枚举子图。在 gSpan 中,每个图形都以 DFS(深度优先搜索)编码表示,该编码基于字典序构建搜索树,并能够有效检查已枚举图形的重复性。更具体地说,在枚举过程中,对于每个已探索的图形,它会检查其 DFS 编码是否为规范编码。在完成后,作者检查每个枚举的子图,并仅保留目标属性分数已经高于预先确定的阈值的子图,以便在下一个重新组装步骤中有效地将它们重新组合以构建新的图形。通过将图转换为相应的联合树,根据定义,每个环都将作为一个单独的节点聚集起来,并且所有的环都将被消除。因此,如果我们将 gSpan 应用于转换后的联合树而不是原始图形上,就可以避免枚举截断分子的环结构的无效子图。此外,联合树上的 gSpan 可以大大减少频繁子图的数量。这也是在分子生成的分解步骤中使用联合树的优势之一。在联合树中,每个团的边标签信息和节点标签信息都丢失了,因此我们需要在频繁子图挖掘后进行恢复。为了实现这个任务,作者使用了一个子图匹配算法,将原始图和获得的树进行匹配。作者使用了具有一般对称性的索引子图匹配算法(ISMAGS)。由于每个分子的大小通常不是很大,在分子生成的任务中节点的数量大多在20到30左右,因此这个恢复过程计算开销不大。

随后,模型通过重新组装先前图形分解步骤获得的频繁子图来生成新的分子。与使用子图作为构建模块的方法相比,作者的方法在分子生成中可以更加强大和高效,因为其直接将具有理想属性的子图作为构建模块进行组合。为了组装分子子图,模型从构建模块中选择两个图形Gt和Gt',将它们组合生成一个新的图形Gt+1,其中t表示分子构建步骤的次数。在节点的重新组装过程中,模型选择单个节点vi ∈ V(Gt)和uj ∈ V(Gt'),使得它们具有相同的节点标签。模型将这两个节点叠加在一起形成vt+1。在边的重新组装中,模型从环中选择边,并以与边的组装方式相同的方式将它们叠加在一起。将两个图形组合起来的计算成本取决于环中节点和边的数量。在最坏的情况下,需要考虑两个图形G = (V, E)和G' = (V', E')的所有节点和边的组合,复杂度为(|V' | | V | + | E' | | E |)。然而,在实践中,通常可以通过考虑图形的对称结构和化学价限制来减少计算成本,尤其是在分子的情况下。每当生成一个新分子时,模型始终检查这些条件,并将不符合条件的分子删除。

为了有效地找到在图形生成过程中组装后会导致期望分子的子图,作者使用强化学习方法。在强化学习中,智能体根据策略π采取行动a,该策略通常以神经网络表示。策略网络返回每个行动的概率和基于状态的状态值函数。智能体在与环境进行交互时,通过最大化期望累积奖励来进行训练。

实验部分

作者通过实验证明了MOLDR方法与最先进的分子生成方法相比的有效性。作者检验生成分子的标准指标,即Plog P和药物相似性评分QED。此外还检验了QED和SA的多目标评分作者还使用GuacaMol基准数据集对重新发现的分子进行基准测试。作者使用ZINC分子数据集和经过ChEMBL数据集预处理的包含约1.5百万分子的GuacaMol数据集。所有分子都经过RDKit的预处理,以便将它们视为图形。在应用MOLDR之前,作者将分子数据集中的分子转换为联接树。结果上,在ZINC数据集上,分子中的最大团数为784个,它们用作联接树的节点标签。联接树中的节点和边的最大数量分别为31和30。在GuacaMol数据集上,最大团数为5106个,联接树中的节点和边的最大数量分别为88和87。作为目标化学性质,作者使用Plog P和QED的得分。这些值被广泛用作分子生成任务的基准。Plog P是环己烷-水分配系数的对数,其中对环大小和合成可达性(SA)有限制。QED是代表分子结构药物特性的得分。QED代表了加权化学性质的函数。

表 1

图 1

表1展示了gSpan算法应用到ZINC数据库上的结果。根据对ZINC数据库应用gSpan算法的结果,作者比较了使用或不使用分子连接树时获得的子图数量和计算时间。可以看出,基于连接树的枚举速度比直接将gSpan应用于分子图要快得多。这个结果意味着基于连接树的枚举在实际的ZINC数据库中是有效的。图1展示了从ZINC 250k筛选中提取的得分大于0.7的QED的建筑模块示例。这些获得的亚结构是最小支持度为100的频繁子图。这些结构将用作分子图重新组装的建筑模块。

表 2

表2显示了plog P或QED的属性得分排名前三的生成分子。。MOLDR与JT-VAE技术类似,因为两种方法都使用了连接树,但是MOLDR的性能优于两种得分。log P与分子的亲脂性和亲水性有关。因此,如果生成分子中的节点有很多碳(C),而缺少亚胺( NH)或羟基(OH)基团,则结果的log P值会很高。这意味着碳原子的数量越多,log P值就越高。同时,在表2中显示了经过惩罚的log P得分,其中对环的大小和合成可达性进行了惩罚。在惩罚的log P优化中,像只选择C这样的贪婪搜索方法就足以最大化得分,因为log P得分的计算由加性组合性组成。MOLDR可以通过优化罚分的log P(得分最高的分子仅包含C(C43)),来训练这样的策略。QED得分是通过结合各种化学属性和化学结构经验性地导出的。因此,与log P的情况不同,最大化QED并不是一件直接的事情。尽管如此,MOLDR的得分优于JT-VAE的得分,且优于GCPN生成的前1和前2个分子。要增加QED得分,生成的分子需要遵循严格的结构限制。在罚分log P优化中,当分子的大小变大且包含大量的C时,结果的log P值会增加。在QED优化中,分子的大小小于log P优化的情况,它们具有对QED有贡献的子图。

表 3

表3显示了分布基准测试的结果。该基准测试评估模型能否从训练数据集中生成有效、唯一和新颖的分子。训练集和生成分子之间的KL(Kullback−Leibler)散度和Fréchet ChemNet距离(FCD)也被使用来评估模型。在分解步骤中,从GuacaMol数据集中以minsup = 10 000的条件挖掘出了1 709个构建块。分布基准测试是在重新组装步骤中对10k个样本分子进行评估的。MOLDR可以通过重新组装分子的构建块生成有效的分子。尽管唯一性稍微小于其他模型,但MOLDR依赖于随机种子来选择构建块。在KL散度和FCD方面,MOLDR不如SMILES LSTM和VAE。然而,得分与Graph MCTS类似,因为它也是一种类似的生成分子策略。此外,MOLDR可以从未经训练的策略网络中随机采样分子。因此,MOLDR有潜力生成与训练数据集中大不相同的分子,从而降低KL散度和FCD的得分。为了在KL散度和FCD方面改善性能,MOLDR需要训练策略网络并设计适当的奖励函数,例如训练数据集与生成分子之间的相似度。

结论

作者提出了一种名为MOLDR的新型分子生成方法,它将图结构进行分解和重组。在对ZINC数据库进行的实验中,MOLDR在两个性质,即Plog P值和QED方面,比使用生成模型和强化学习的最先进的分子生成方法能够找到更好的分子。在GuacaMol基准测试中,如果存在所需的亚结构,MOLDR也能够重构目标分子。作者的方法是通用的,因此不仅适用于分子图生成问题,还可应用于任何图生成问题。此外,MOLDR还可以通过选择特定的数据集和/或设计奖励函数来结合先验知识,以关于亚结构的先验知识。

参考资料

Yamada, M., & Sugiyama, M. (2023). Molecular Graph Generation by Decomposition and Reassembling. ACS omega.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-07-15 00:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档