2024年11月5日,浙江大学侯廷军等人在Journal of the American Chemical Society期刊上发表了一篇题为“Deep Lead Optimization: Leveraging Generative AI for Structural Modification”的研究文章。
该文章聚焦于生成式人工智能(Generative AI)在药物分子结构优化中的应用,系统性地分类并探讨了结构导向和目标导向两大类优化方法的现状、挑战与未来发展方向。研究团队从计算辅助药物设计(CADD)到AI辅助药物发现(AIDD)的发展历程切入,深入解析了片段替换、链接设计、骨架跳跃和侧链修饰等具体任务,阐述了各任务在模型训练数据构建和生成式AI工具开发中的突破与难点。
同时,文章还提出了一种综合参考协议,旨在帮助实验化学家更高效地将生成式AI工具融入药物分子结构优化的实践。对于目标导向和结构导向方法如何互补,文章展望了互动式策略的潜力,并探讨了多目标优化、化学空间限制以及基于结构的3D优化模型等领域的前沿挑战。
引言
在药物发现的早期阶段,计算机辅助药物设计(CADD)能够高效识别具有高活性和良好药物特性的初筛和筛选化合物,大大加速药物开发过程。近年来,随着数据库的扩展和人工智能(AI)在CADD中的新兴推动力,AI辅助药物发现(AIDD)扩展了CADD的界限。
虚拟筛选和分子生成是用于发现和设计抑制剂的两种互补方法。虚拟筛选涉及评估和排序化合物库,从而选择最有希望的候选物用于进一步的生物测定测试。而分子生成超越了现有化合物的局限性,通过设计新的化学实体扩展化学空间,为新可能性提供机会,如图1所示。这两者都聚焦于初筛和筛选化合物,并且已有多项研究成功将其应用于实际药物发现活动中。
分子生成分为两条路径:全新设计(de novo design)和先导化合物优化(lead optimization)。全新设计从零开始创建新分子,目的是探索化学空间中尚未开发的区域,以寻找潜在的治疗剂。而先导化合物优化则集中于改进现有化合物的结构,以提升其疗效、选择性、药代动力学和安全性,最终将这些先导化合物提升为药物候选物。近年来,生成式人工智能尤其在将分子设计问题表述为句子和图生成问题方面备受关注。模型如基于变分自编码器(Variational Autoencoder,VAE)架构的CVAE,基于Flow模型的MoFlow,以及利用生成对抗网络(GAN)架构的MolGAN,展示了全新设计方面的进展。然而,先导化合物优化的复杂性更高。模型如REINVENT,DeepFMPO和MCMG通过优化指定目标函数进行先导化合物优化,而如DeLinker和Delete则聚焦于完成分子图结构。为了澄清这一领域的现状,研究团队将这些模型分类为两种主要类型:目标导向型和结构导向型,如图1所示。
目标导向型模型通常采用强化学习或潜在空间导航技术在无结构约束下优化分子,而结构导向型模型通常采用条件深度生成模型生成具有特定结构的分子。尽管少数模型能够同时采用两种方法,研究团队提出这一分类反映了先导化合物优化模型设计的基本逻辑。
图1:AIDD中深度先导优化的作用,以及目标和结构导向先导优化方法的说明
目标导向型先导化合物优化因其自然转换为优化问题而受到广泛研究和审视。许多传统的元启发式算法,如遗传算法,以及现代强化学习技术,均适用于这一背景。相比之下,结构导向型先导化合物优化的研究相对较少,已开发的方法被用各种术语描述,如基于骨架(scaffold-based)、结构约束模型(structure-constrained models)、功能基团等。这些不一致的术语混淆了研究人员,使得模型的公平比较变得具有挑战性。因此,研究团队旨在统一结构导向型先导化合物优化的分类,并与实际场景对齐。在回顾了大量传统计算方法后,研究团队提出了一种结构导向型先导化合物优化的分类,包括骨架跃迁、连接子设计、片段替换和侧链修饰,这些任务的概述见图2。
图2:先导优化的四个子任务的说明
这篇文章回顾和讨论了深度先导化合物优化的最新进展,特别关注结构导向型方法。对于感兴趣于目标导向型方法的读者,可以参考相关综述。研究团队首先概述了目标导向型和结构导向型先导化合物优化,突出了结构导向型方法的独特特征,即特定位点的结构修改。接着,通过比喻生动说明为何结构导向型模型更符合实际需求。随后,他们探索了结构导向型先导化合物优化领域内提出的四项具体任务,尝试首次提供全面概述。特别地,研究团队讨论了每项任务的训练数据构建、基础动机、经典CADD方法及当前基于生成式AI的方法。最后,他们以独特的视角通过优化算法的分类对目标导向型和结构导向型方法进行了分类,突出了其潜在问题并提出了有效结合两种方法的策略。
同时,还讨论了当前方法中存在的化学空间受限和多参数优化等挑战。基于他们在实际药物开发中应用先导化合物优化模型的经验,研究团队提出了一种参考协议,以协助化学家将生成式AI方法融入其结构修饰任务,使实验研究者能够快速适应最新技术。
概述:目标导向与结构导向的先导化合物优化
目标导向的先导化合物优化可用数学公式表达为:max f(m) m,其中,f是目标函数,m是分子结构。为了解决这一问题,一些方法将分子设计模拟为一个顺序决策过程,自回归地生成分子结构。研究团队利用强化学习在每一步调整生成偏好,从而找到生成目标分子的最佳策略。例如,REINVENT使用策略梯度(Policy Gradient)方法对预训练于二维分子数据集的SMILES生成模型进行微调,通过调整模型参数使生成过程更偏向于指定目标。MolDQN则通过深度Q学习(Deep Q-learning)来近似动作值函数,从而指导每个状态的动作生成。DeepFMPO则结合策略梯度和Q学习模型,利用actor-critic方法实现最优分子设计。
除了强化学习之外,另一类方法依赖于元启发式方法(Metaheuristic methods)。例如,GB-GA定义了分子图的交叉与变异操作,利用遗传算法(GA)迭代分子种群,从而识别出更优后代分子。而MOMO和ChemMORT尽管在离散图结构上定义自然交叉与变异时面临挑战,但通过变分自编码器(VAE)和生成对抗网络(GAN)等分子生成方法的潜在空间,获得了连续表示。随后,它们对这些连续向量应用遗传算法或其他元启发式技术(如粒子群算法),识别出更优的潜在向量,最终通过生成模型将其解码为真实分子。
这些目标导向模型的根本目标是优化给定函数,而不考虑分子结构约束。例如,确保优化后的分子包含输入先导化合物中的苯环。尽管一些方法(如DeepFMPO)在目标函数中引入了与原化合物的相似性,但这仍不足以确保子结构约束的满足。目标导向方法的效果不仅依赖于优化算法的效率,还对目标函数的质量非常敏感。
相比之下,结构导向的先导化合物优化无需目标函数,旨在解决Gμ = f(G\μ),即基于已给定的部分分子结构填充剩余部分。例如,DeLinker将连接子生成任务建模为条件图生成问题,直接利用VAE求解,其中Glinker = f(Gfrag1,Gfrag2)。ScaffoldGVAE则将支架跃迁任务建模为条件句生成问题,即Sscaffold = f(Sside chains),并将Sscaffold表示为一系列SMILES字符。这些结构导向方法的核心逻辑是,在优化后的分子中包含具有良好药物特性或易于合成的基团。这种方法不仅适用于先导化合物优化,还自然适合“me-too”和“me-better”药物的设计策略。
与大多数目标导向方法相比,结构导向方法在分子结构的控制上更加细致,与药物化学家在实践中的结构修饰习惯更为一致。由于结构导向方法的重要性及其在现有先导化合物优化综述中的不足,研究团队根据历史结构修饰策略将基于人工智能的结构导向先导化合物优化方法分为4类,并将在后续部分对此进行特别讨论。
结构导向先导化合物优化的比喻
在开发去新(de novo)设计模型(ResGen、SurfGen、FragGen)和结构导向先导化合物优化模型(Delete、FFLOM)的过程中,研究团队观察到一个有趣的现象:由先导化合物优化模型生成的分子,经过药物化学家的视觉检验后,直觉上更为优越。这不仅是因为结构导向的先导化合物优化与化学家的需求高度契合,研究团队还提出了一个基于化学空间洞察的附加解释,并通过一个比喻帮助研究人员更好地理解。
从数学上看,去新设计模型或潜在空间导航模型试图学习化学空间S中分子图G的分布PS(G),而结构导向先导化合物优化旨在建模条件分布PS(Gμ|G\μ),即学习在部分结构已知条件下化学空间中剩余结构的分布。结构导向优化的一大优势在于,相较于直接计算边缘分布PS(G),估计条件分布PS(Gμ|G\μ)通常更为可行,因为部分结构在化学空间中约束了可能的Gμ分布范围。
这一概念可以比喻为从零开始绘制一幅肖像画与在粗略草图上填充细节的区别。例如,一位新手画家尝试从头绘制《蒙娜丽莎》可能只会画出一幅卡通般的作品,而在现有草图上完善细节则容易得多。该比喻在图3中进行了说明,解释了为什么由结构导向先导化合物优化模型生成的分子通常比去新设计模型生成的分子更具有效性,也解释了为什么许多药物化学家更倾向于基于先导化合物设计分子。
图3:从零开始生成与先导优化的隐喻
用于先导化合物优化的数据集分解
训练深度学习模型需要大规模数据集。然而,从文献中提取先导化合物优化前后的结构极为繁琐,导致专用于先导化合物优化的数据集匮乏。因此,必须利用计算方法获得“廉价”数据以进行大规模训练。具体来说,为模拟先导化合物优化过程,每个数据条目应包含一对分子,分别对应优化前后的分子。在以下部分中,研究团队将讨论如何通过传统计算方法和当前基于人工智能的模型获取这些“廉价”的先导化合物优化数据对。
骨架和侧链分解
分子通常由环状结构、连接体和侧链基团/原子组成。环状结构在药物分子中非常常见。一项研究表明,在PJB的药物项目中,96%的化学实体包含环状结构,占分子量的56%。环状结构是有机化学中的主要合成单元,对化合物的形状、电子分布和生物活性起着重要作用。因此,环状结构被视为分子骨架的基本单元。
分子骨架的定义方式多种多样,其中最常采用的是Bemis和Murcko(BM)提出的定义。BM骨架通过移除所有末端非环状侧链后所剩的结构定义骨架,如图4A所示。如果忽略原子和键的类型,可以得到一个更加抽象的环状骨架(CSK)。BM和CSK骨架在分析化合物库的多样性时非常有用。一项原始BM骨架研究发现,当时大约一半的药物可以用仅32种骨架表示,进一步证明骨架足够表达复杂的化学空间。
尽管BM骨架在药物化学中非常重要,但其分割方式过于粗略,即核心结构包含所有环,而侧链缺乏环状结构。为了解决这个问题,开发了更多精细的分解方法,如HierS、SCONP、Scaffold Tree、CSE、Scaffold Network和Scaffold Hunter(截至2023年4月仍可在线访问)。这些方法生成稍有不同的分子骨架,如图4B-D所示,为聚类、分析和理解分子的内在属性提供了更多精细化的分解实践。
总结来看,这些拓展的骨架分解方法共享一个核心思想,即进一步分解BM骨架中的环状结构。假设BM骨架包含五环结构(图4A),进一步提取骨架时可通过断开与环相连的单键,将其分割为四环结构(图4B)和二环结构(图4D)。在此上下文中,BM骨架被称为超骨架,而最小环结构的骨架称为基础骨架,超骨架与基础骨架之间的结构称为中间骨架。通常,超骨架的粒度太大,而基础骨架的粒度太小,无法充分表征药物样分子的化学空间,因此不常用于化学空间探索和化合物聚类分析。
尽管骨架分解方法多种多样,当前的人工智能方法采用的是经典的BM骨架定义。在实践中,基于AI的骨架跳跃模型将骨架跳跃数据对定义为具有相似3D构象但2D BM骨架不同的分子;而基于AI的侧链装饰模型将侧链装饰数据对定义为在相同BM骨架上添加分子基团。
图4:用于先导优化训练对的分子分解方法
片段和连接体断裂
在组合化学、逆合成路径规划和基于片段的药物设计领域,分子通常被分解为称为片段的基本构建块,片段由多个原子组成,代表分子的关键部分。这些片段比单个原子更能反映分子的物理化学或功能特性。化学分解分子的两种典型策略是RECAP和BRICS。RECAP定义了11种与化学反应相关的可断裂键,可用于将复杂分子分解为其基本组成部分。而BRICS则基于更精细的规则(如考虑断键附近的子结构),将11种可断裂键扩展为16种。另一种分解方法eMolFrag通过在分解结构之间规范片段和连接体,已在腺苷受体上得到验证,表明其分解单元可以组装成活性分子。
除了以化学合成方式分解分子外,深度学习中的先导化合物优化数据准备还可以选择使用匹配分子对(MMP)方法来派生片段和连接体。MMP最初用于评估取代基对生物活性的影响,重点关注分子对之间的差异。在先导化合物优化中,MMP通过系统性地断键生成片段和连接体。具体而言,MMP通过在预切割分子中定义一组非环状单键,并随机选择一个进行分割,将分子分解为两个片段。更普遍地,断裂分子中的两个键可形成三个片段,而断裂三个键可生成四个片段,依此类推。
在结构导向的先导化合物优化实践中,片段替换任务由单键切割结果定义,而连接体设计任务涉及由双键切割生成的中心片段。图4G-I展示了原分子潜在的片段替换任务,而图4E-F展示了相同分子的潜在连接体设计任务。
结构导向的候选化合物优化:从CADD到AIDD
表1展示了基于深度学习(DL)的候选化合物优化模型的分类。表的第一部分按照具体的候选化合物优化任务对模型进行分类;第二部分则基于模型是否生成分子的3D构象以及是否将蛋白质结构作为条件约束进行分类。
表1:深度先导优化的分类
链接设计
链接子设计起源于基于片段的药物发现(FBDD)。在这一策略中,化学家首先筛选小分子量(通常低于260 Da)的候选片段,这些片段通常表现出较弱的结合能力(约为mM级),因为它们与蛋白质残基之间的相互作用有限。链接子设计通过将这些空间上分散的片段连接为一个大的配体,旨在保留候选片段对结合口袋的结合模式。这一连接过程可能会导致所谓的“超加成性效应”,即链接后片段的综合效果大于其单独效应的总和。如下公式所示:
ΔGA−B =ΔGA + ΔGB + ΔG
其中,ΔG A−B是链接后分子的自由能变化,ΔGA和 ΔGB分别为片段A和B的自由能变化,而ΔG 是额外的自由能变化,贡献了超加成性。例如,在设计酪氨酸激酶2的α催化位点抑制剂的项目中,候选片段的解离常数(Kd)分别为270 μM和>500 μM。在通过精心设计的链接子连接后,优化后的候选化合物的活性提高到0.320 μM,实现了1000倍的提升。
这一策略吸引了药物化学家的注意,促进了两个经典CADD方法的演化:库搜索方法和片段分子轨道(FMO)计算。
在AIDD时代,第一个用于链接子设计的深度学习模型是 DeLinker,其使用了变分自编码器(VAE)架构(如图5A所示)。在该框架下,对于一个包含n个原子的训练分子(包括v个片段原子和m个链接子原子),DeLinker将片段结构与整个分子一起编码到潜在空间中,然后解码以恢复原始分子结构。链接子的生成通过编码片段结构至潜在空间,再结合一个维度为v+m的噪声向量解码生成包含m个原子的链接子分子。
SyntaLinker 方法(如图5B所示)进一步采用Transformer语言模型,通过生成SMILES进行链接子设计。通过编码片段的SMILES格式和条件控制标记(如最短链接路径及其他药效团约束),SyntaLinker能够解码出符合特定约束的完整分子,并可以扩展到特定目标的应用场景。得益于Transformer的强大学习能力,SyntaLinker在有效性、合理性和恢复概率方面优于DeLinker。
图5:两种代表性的连接设计方法
随后引入的SyntaLinker-Hybrid使用片段杂交来改进基于片段的药物设计方法,但模型本身未得到根本改进。DEVELOP是DeLinker的升级版,它将链接子设计和片段扩展任务合并为一个模型,通过将3D药效团约束纳入分子生成,利用卷积神经网络(CNN)作为特征提取器实现基于配体的药物设计。
另一个重要模型3DLinker细致地考虑了链接子的几何形状,通过等变神经网络在每次迭代生成步骤中获取链接原子的坐标。与只能生成二维结构的模型(如DeLinker)相比,3DLinker在各种几何感知指标上表现更佳,增强了设计具有显著几何特性的链接子的能力。
研究团队提出的分类体系认为,先前的深度概率模型主要遵循结构导向的方法。然而,也应注意到基于强化学习(RL)的一些方法既可以归类为目标导向,也可以归类为结构导向。这些模型的共同特点是能够详细控制生成过程,例如在给定输入片段的情况下设计链接子。
例如,DRLinker 是增强了强化学习策略的SyntaLinker版本,允许输入链接子长度、理化性质(如QED、SA、LopP)和生物活性等参数。Link-INVENT 是一种基于RNN的方法,通过SMILES格式生成分子,并在多个与DRLinker类似的指标上执行强化学习。这两种模型均基于SMILES格式,将链接子设计概念化为自然语言处理中的句子补全任务,其中片段的SMILES表示定义了链接子设计空间的约束。
为了实现链接策略的“超加成性”,链接子应允许链接分子紧密结合目标,同时保留候选片段的原始结合模式。在这一背景下,几何感知交互变得尤为重要。
目前开发的 DiffLinker 首次结合了流行的基于扩散的模型和等变图神经网络,解决了这一问题。DiffLinker可以被表述为:p(RLinker,GLinker|RFrags,Prot),这意味着它协同生成链接子的化学式和构象。DiffLinker首先需要一个预训练模型来预测链接子中的原子数量。一旦确定了链接子的原子数量,就会在原子类型空间和原子间距离空间执行去噪过程,最终通过从高斯分布逆扩散过程的演化生成具有几何结构的链接子。
另一种方法 ShapeLinker 引入了双阶段链接子设计协议,使模型能够感知蛋白质结构。最初,它利用RDKit的内置方法生成链接子的构象,然后使用快速形状对齐评分评估生成分子与蛋白质结合口袋之间的兼容性。尽管这一双阶段策略有效地将ShapeLinker与蛋白质结构联系起来,但其在无口袋背景下依赖传统构象生成方法,需生成大量潜在构象以确保与蛋白质结合口袋的兼容性。
最近,LinkerNet 引入了一个受牛顿-欧拉方法启发的模块,用以修正初始片段的坐标,为链接子设计引入了一种灵活性。LinkerNet的表述为:
p(RLinker,GLinker,RFrags|GFrags,Prot)。
骨架跃迁
骨架跃迁是药物发现中常用的一种策略,其目标是优化先导骨架并生成具有更好药物特性的新化合物,同时有时规避现有的专利保护。传统的骨架跃迁方法包括相似性搜索、药效团匹配以及片段替换。这些方法均依赖于分子与骨架之间的相似性比较。长期以来,骨架跃迁的方法论发展较慢,直到数据驱动的表征学习为该领域注入了新活力。值得注意的是,连接子本身可视为骨架的子集。因此,一些基于深度学习的骨架跃迁模型基本上是连接子设计模型,例如 SyntaLinker、Link-INVENT 和 DRLinker 等。这些模型主要聚焦于设计片段之间的类似连接子的骨架,但无法扩展到涉及多个片段或占据先导化合物重要部分的复杂任务。
Graph-GMVAE是专为骨架跃迁设计的模型之一,其采用MGVAE架构,通过将隐藏空间从单一高斯分布扩展为多变量高斯分布。这一修改结合了化学直觉,使得可以在隐藏空间中定义骨架簇(每个高斯区域)之间的相似性。通过相似性度量在GMVAE的隐藏空间中进行采样,可实现原始论文提出的三种骨架跃迁尺度:爬行(crawling)、跳跃(hopping)和飞跃(leaping),如图6A所示。此外,Graph-GMVAE 包含侧链通道和骨架通道两个生成通道,整体生成方案涉及骨架通道与侧链通道的交互采样。ScaffoldGVAE 类似于 Graph-GMVAE 的策略,但作为开源模型发布,为药物设计社区提供了一个易于使用的工具。
DeepHop方法则将骨架跃迁转化为一种语言翻译任务。它将现有分子作为输入,生成具有相似3D结构但不同2D结构的先导分子作为输出。DeepHop 使用了一种特殊的数据处理方法,定义训练对(X, Y),其中 X 是原始分子,Y 是跃迁分子,其需满足以下三个条件:(1)骨架相似度小于0.6,(2)3D相似度大于0.6,(3)Y的p-生物活性比X高一个单位。跃迁转换的示例见图6B。基于这些预处理的骨架跃迁对,DeepHop将先导分子翻译为优化分子,提高生物活性并改变拓扑结构,同时保持3D结构在一定范围内。然而,DeepHop无法保证跃迁分子中会出现特定的结构,这使得与化学家合作存在一定挑战。尽管如此,由于其训练设计用于骨架跃迁,研究团队仍将其归类为结构导向方法。此外,其特定目标能力依赖于通过嵌入层将整个蛋白质结构映射为向量,缺乏详细的交互,仅在保守的激酶家族中展示了泛化能力。目前开发的DiffHopp方法通过采用类似DiffLinker的架构,实现了对详细交互的感知。
图6:两种代表性的骨架跳跃方法
侧链修饰
与骨架跃迁平行,来自骨架分解的侧链也可用于优化先导化合物。这一过程被称为侧链修饰或基于骨架约束的分子生成,涉及保留具有生物活性的核心骨架,同时修饰侧链以增强疗效。骨架通常通过与关键残基的相互作用将分子锚定在蛋白质口袋中,这对于在先导化合物优化过程中维持理想的相互作用至关重要。此外,从有机化学的角度来看,一系列基于骨架的衍生物更易于合成,这大大降低了药物开发中的合成复杂性。将分子锚定在蛋白质口袋中的过程类似于将船只牢牢停泊在海中,需要既稳定又精准的锚点。
首个基于深度学习的侧链修饰方法是GraphScaffold,其利用图神经网络(Graph Neural Networks)逐步添加原子和键。通过图表示的使用,避免了基于SMILES模型在原子或键添加方面固有的歧义性。DeepScaffold扩展了GraphScaffold的功能,涵盖了更多种类的骨架并增加了更广泛的度量指标。此外,DeepScaffold通过建模 p(Gchem−scf|Gany−scf) 从通用匿名骨架中采样化学骨架结构,如图7A所示。另一种方法MoLeR严格约束生成过程在给定的基序上,通过添加原子或预定义的基序到完整骨架上,实现任意结构(如独特环)的生成,即使在缺乏预分裂基序的情况下也能完成。结合并行训练协议和高级优化方法(MSO),MoLeR实现了稳定高效的训练和推理速度。GNNGAC则允许化学家在修饰过程中调整化学键或原子,方便结合专业知识。
与连接子设计任务类似,骨架修饰也得益于对三维结构的考虑。目前,一种基于几何图的方法3D-Scaffold使用选定骨架的三维坐标作为输入,生成新治疗候选物的三维坐标作为输出。通过使用G-SphereNet,3D-Scaffold的几何生成部分遵循物理等变性约束。3D-Scaffold-RL在此基础上更进一步,将基于图的结合概率预测器引入强化学习(RL)的奖励函数中,用以评估蛋白质结合口袋与相互作用配体的三维结构结合能力,从而使模型具备对蛋白质结构的认知。在3D-Scaffold-RL中,研究团队证明,结合预测器的引入显著提高了生成配体的结合概率,从约0.25提升至约0.75。最近开发的DiffDec遵循DiffLinker和DiffHop的思路,使修饰过程能够依赖于骨架构象和蛋白质结构的条件。
总而言之,上述分子图方法确保了优化先导化合物的有效性,并内在地保证生成分子中特定子结构的存在。另一种实现骨架修饰的方法是利用语言模型。尽管语言模型得益于Transformer的表达能力,但在为骨架添加多个侧链时存在合法性问题。BiDesign通过在SMILES的两端生成分子缓解了这一问题,但其仅适用于具有两个接触点的情况。SAMOA设计了一种新的SMILES语法采样方案,从而实现基于SMILES的结构导向策略。此采样方案不仅可用于侧链修饰,也适用于连接子设计。Scaffold Decorator通过在骨架中定义初始接触点标记(*)克服了合法性挑战。在生成阶段,语言模型以SMILES格式在这些接触点上扩展片段。LibINVNET使用相同策略以确保严格的骨架约束,并结合强化学习技术扩展到目标导向领域,例如通过修饰骨架来提升药物特性(QED、SA、对接评分)。与此不同的是,某些模型强制在化学语言生成中施加骨架约束,而MolGPT则将骨架作为输入,直接生成最终的分子SMILES,如图7B所示。因此,类似于骨架跃迁中的DeepHop,MolGPT无法保证生成分子中包含特定的子结构。
图7:两种代表性的侧链装饰方法
片段替换
片段替换(Fragment Replacement),也称为片段扩展,与链接子设计策略一样起源于基于片段的药物发现(FBDD)。在早期的候选化合物发现阶段,片段扩展被用于完成候选片段以填补结合口袋中未占据的部分,从而增强候选分子的结合强度。尽管片段扩展方法与侧链装饰类似,但它们具有不同的特性。在BM骨架分解中,装饰的侧链通常是非环状且相对较小的,每个化合物通常提供4-5个修饰位点。然而,在片段替换中,大多数替换片段是含环结构的官能团,原子数范围为3至20个。
传统上,片段扩展依赖于相似性搜索方法,例如BROOD和FragRep;也有一些方法将片段扩展表述为结合能优化问题,例如AutoGrow。
在结构导向的候选化合物优化中,DeepFrag(图8A)是首个将深度学习应用于片段替换任务的领先模型。DeepFrag构建了一个片段库,并通过查询模型确定应连接到种子分子的片段。尽管DeepFrag声称在测试集上的成功重建率超过50%,但其局限性显而易见:该方法采用卷积神经网络(CNN)预测策略,结合分类模块,将生成问题简化为分类问题,从而限制了其在新蛋白−配体案例中的通用性。
DEVELOP方法(图8B)随后发展,利用VAE结构突破了片段库的限制。在DEVELOP中,从CNN提取的药效团信息指导分子片段的替换。类似DEVELOP的架构,STRIFE使用与结合口袋相关的描述符(FHM)作为条件,扩展了药效团依赖的多样性,实现了结构感知的条件生成。在片段替换任务中,当前一种基于详细蛋白−配体相互作用的模型是D3FG,该模型预测片段并在几何变量(位置和方向)上应用扩散模型,与采用笛卡尔扩散模型的模型(如DiffLinker、DiffHopp和DiffDec)不同。
图8:两种代表性的片段生长方法
通用模型
与目标导向的候选化合物优化任务不同,这里专门讨论一类专注于结构修饰的方法,研究团队将其命名为结构导向策略以作区分。这些方法从根本上解决了约束生成问题,即基于输入的候选片段完成分子。尽管看似可以训练单一模型来处理所有四种任务,但实际复杂性很高。特别是,在任意点插入片段并确保SMILES表示中的连接性是一项显著挑战,尤其是在完成空间分离的片段时,即使是图表示也存在困难。例如,DeLinker通过将链接子定义为片段之间的段来预定义生长区域,并使用VAE模型预测链接子生长。这种方法需要根据与剩余片段的连接数量定义不同的生长模式,并在此设置下重新训练模型。
为了应对这一挑战,已经提出了四种模型,它们能够在单一框架内处理所有四种候选化合物优化子任务。REINVENT结合了每项任务的现有扩展,如LibINVENT和LinkINVENT,形成了一个全面的候选化合物优化解决方案。SAFE引入了一种新颖的表示方式,将SMILES字符串重新定义为无序的片段块序列。这种表示简化了子结构约束分子生成为经典的序列补全任务,避免了基于SMILES模型设计复杂解码方案。此外,SAFE采用了最近流行的GPT架构,训练了一个大模型,充分释放了大模型在分子生成中的潜力。
在基于图的模型中,DrugEXv3引入了一种联合图表示,分为三个部分:骨架、生长和链接,并进一步通过五行详细描述:原子类型、键类型、连接原子索引、原子索引和片段索引。这一独特的设计使DrugEXv3能够使用图Transformer模型以各种子结构约束方式生成分子。尽管这些通用模型具有独特设计,但它们局限于二维配体生成范式。
Delete模型进一步迈出了重要一步,成为首个这种类型的基于结构的三维模型。它采用统一的掩码策略将所有任务集成到单一模型中,同时在蛋白−配体图神经网络中嵌入物理等变性,从而实现蛋白−配体结合构象的共同设计。
挑战与展望
先验、后验与交互策略
与以DeepFMPO等模型为代表的目标导向方法不同,结构导向方法通常不事先考虑药物特性的目标函数。在实际应用中,这些方法会生成一系列化合物,随后利用一套规则和药物特性计算函数对生成的解决方案进行筛选。如果从经典优化方法的分类来看,目标导向的先导化合物优化属于“先验”类别,而结构导向优化则属于“后验”类别。
“先验”策略通过预先定义目标函数,然后使用优化算法寻找最优解。这一过程高度依赖于目标函数的质量。如果目标函数不准确,优化过程可能偏离方向,最终生成不稳定甚至无法合成的分子。而“后验”策略则先由模型生成一组分子,然后使用目标函数进行筛选。这种方法不会将目标函数的误差引入优化过程,特别适用于药物设计中由于机制过于复杂而难以获得准确目标函数的情景。然而,这并不意味着“先验”策略毫无意义。随着目标函数数量的增加,使用“后验”策略生成理想分子的概率会指数级下降,显著降低效率。
因此,研究团队设想了一种结合两种策略优点的路径,称之为“交互”策略。在这种策略中,模型的决策过程不仅嵌入了先验模型的预期引导,还融合了专家知识进行校正。例如,模型可以首先使用强化学习(RL)推导出目标导向的策略Q(a∣s)。然后,在每次迭代中,化学家可以与模型交互,选择最佳的动作排序 {a 1,a 2,⋯,a n},逐步将难以数学表达的先验知识注入到先导化合物优化过程中。未来,研究团队计划在这一方向上扩展Delete模型,例如在RL-Delete中向化学家呈现每个决策步骤(生成下一个原子)的多个可能排序,供其选择。
基于结构的艺术与有限化学空间探索
基于结构的药物设计(Structure-Based Drug Design, SBDD)通过利用药物与蛋白靶点之间的精确分子相互作用,已被证明在指导合理药物开发中非常有效。然而,许多当前基于生成式AI的优化模型局限于基于配体的范式,仅优化与训练集性质相似的二维分子结构。一些方法利用强化学习将蛋白靶点约束作为反馈(例如对接评分),以生成一系列靶点感知的分子。然而,对接评分可能过于粗略,难以有效指导优化过程。以MolSearch模型为例,其基于对接评分引导的蒙特卡洛树搜索(MCTS)优化了似乎无法成药的大分子,但结果表明对接评分未能提供充分的指导性。
直接感知靶点的三维先导化合物优化模型(如DiffLinker和Delete)的出现,将蛋白质信息直接纳入优化过程,使得能够自动学习详细的相互作用。然而需要注意的是,这些基于结构的当前模型通常训练于有限的数据集(如PDBBind),限制了生成模型对化学空间的感知。这一问题可称为生成式AI中的“有限化学空间悖论”,即尽管这些模型旨在发现超出现有库范围的分子,但其设计却反而限制了这种能力。
为应对这一挑战,未来研究可以探索预训练策略或在模型设计中引入更多的物理约束,以增强化学空间的探索能力。
无需合成分子即可评估模型
尽管评估人工智能辅助药物设计(AIDD)模型的金标准是通过化合物的合成和随后的生物测定,但使用计算指标进行评估可以显著加速模型开发。然而,许多常用的统计指标,例如独特性、有效性和新颖性,往往不能充分反映生成化合物的质量。一些研究人员使用化学指标(如药物相似性评分QED和合成可达性评分SA)来评估药物相似性和合成成本,同时采用分子对接得分来评估结合亲和力。然而,这些指标因过于粗略且在实际设计场景中适用性较低而受到批评。
尽管这些指标在湿实验室中的局限性,它们仍是快速评估中可用的少数工具之一。这些指标提供了统计意义上的洞察:虽然较高的QED得分并不能保证分子在药物开发中的成功,但如果某模型能持续生成具有更高平均指标的分子,则表明其生成药物相似分子的可能性较高。正如那句名言所说,“所有理论都是错误的,但有些是有用的。”因此,这些指标在方法开发过程中仍然提供了重要的参考价值。
除了比较大量分子的指标外,案例研究也能从另一个角度评估模型性能。例如,案例研究可以评估模型是否能在有限的优化步骤内复现历史上的成功药物发现案例。因此,建立一个针对候选化合物优化的开放基准测试将非常有价值。此外,将可解释人工智能(XAI)方法纳入候选化合物优化模型,可以阐明模型提出结构的背后逻辑。这使得专家能够整合和比较他们的知识,为评估模型性能提供一种定性的方法。
目标导向与结构导向中的多参数优化
药物设计本质上是一个多参数优化问题,需要同时考虑疗效、药代动力学和可合成性等因素。因此,将这些因素纳入优化过程是必不可少的。在目标导向的优化方法中,一种常见做法是将所有目标汇总为单一标量函数,例如加权总和。然而,这种方法在优化过程中可能被某个占主导地位的目标函数所支配,从而忽视其他重要目标。一种替代方案是将Pareto排名 融入优化过程,但Pareto排名的计算本身需要付出大量计算成本,尤其是在需要优化超过三个目标的情况下。
如前所述,纯结构导向的方法通常在生成完成分子后再进行目标优化,即基于输入的候选片段生成一系列完整分子,然后通过目标函数对其进行筛选。然而,目前的结构导向方法主要专注于提升模型架构的表现力和优化化合物的化学质量,几乎没有关注多参数优化的挑战。
对此,研究团队建议针对这些方法采用一种直接但有效的方法:对生成的分子应用Pareto排名,以筛选出Pareto前沿分子,供化学家进一步选择。由于这仅需进行一次 Pareto 排名,即使涉及多个优化目标,其计算成本也是可控的。
针对化学用户的建议
尽管深度学习候选化合物优化方法的原始论文中提供了一些具体的案例研究,但其在实际药物设计项目中的应用仍未被充分探索。研究团队开发了一种通用的结构导向候选化合物优化模型Delete,并将其用于设计针对LTK的抑制剂,成功识别出一系列具有纳摩尔亲和力的活性配体。基于研究团队的经验和见解,他们提出以下协议,用于在实际药物开发中高效利用生成式人工智能(GenAI)候选化合物优化模型(图9):
1. 获取初始蛋白−配体结构。以目标蛋白和初始候选化合物为起点。例如,从蛋白数据库(PDB)中获取蛋白−配体复合物,然后通过片段分解或人工指定从共晶配体中推导候选化合物。如果实验结构不可用,可以使用分子对接模拟建模蛋白−配体构象。
2. 选择感兴趣的目标指标。考虑如对接得分(docking scores)、药物相似性评分(QED)和合成可达性评分(SA)等指标。或者,使用训练好的定量构效关系(QSAR)或ADMET模型估计结合亲和力或药物相似性。研究人员可以先从对接得分和QED开始,作为目标函数。
3. 利用模型集成进行分子设计。目标导向模型:使用DeepFMPO优化基于初始分子和对接得分的分子;使用DeepFMPO v3D优化基于分子3D电子相似性和对接得分的分子。
结构导向模型:使用Delete模型,将蛋白结构和候选片段作为输入,基于结构导向策略生成一系列分子;使用FFLOM模型,将候选片段作为输入,基于配体导向策略生成一系列分子。
4. 分子筛选与选择。将第三步生成的分子整理为一个集合。进行初步筛选,移除不符合Lipinski’s Rule of Five或含有PAINS结构的分子。然后,根据第二步中选择的指标绘制剩余分子图表。化学家可以通过视觉检查选择最有潜力的候选分子。
此模板为在实际药物开发中应用深度候选化合物优化模型提供了一个实用的参考,旨在充分利用不同方法的优势。例如,尽管目标导向方法可能缺乏详细的结构控制,但它们可以提供广泛的探索能力。此外,基于配体的方法(如 FFLOM)由于在较大的数据集(例如CHEMBL)上进行训练,可以探索比结构导向方法(如Delete,训练于PDBBind)更广的化学空间。
图9. 利用基于GenAI的先导优化工具的流程图
启发
这篇文章启发我们可以在生成式人工智能的药物先导优化中结合以下方法,以进一步提升效果。引入多模态生成模型:在当前生成式AI方法中,多数模型仅利用分子结构数据(如SMILES或图表示)进行生成,而忽略了配体-受体相互作用的全景信息。我们可以结合分子结构数据和蛋白受体的三维空间信息,通过跨模态生成模型(如联合扩散模型或多模态Transformer),实现对药物分子形状、化学性质和蛋白结合位点的联合优化,从而生成更具特异性和高亲和力的分子。将自监督学习和迁移学习应用于生成式模型预训练:当前方法受限于药物分子数据集规模,而生成式模型对数据量依赖较大。
通过预训练模型在大规模通用化学库(如ChEMBL、ZINC)上学习广泛的分子特征,再进行迁移学习至特定任务(如先导优化)中,能够显著提高模型的泛化能力和生成质量。结合实时多目标优化反馈:这篇文章提到的方法主要在生成完成后进行筛选,而非实时优化。引入强化学习(如基于策略梯度或Q学习)与Pareto前沿搜索的结合,将生成的多目标(如活性、毒性、合成难度)实时反馈至模型训练中,可提高多目标优化效率并更接近真实药物开发需求。纳入分子动力学模拟辅助生成:在生成过程中,结合分子动力学模拟来校正生成分子的几何形状和物理性质,可以更准确地捕捉分子与靶点的动态相互作用,进一步提高分子的实际可用性和生物学活性。
参考资料:
Zhang O, Lin H, Zhang H, Zhao H, Huang Y, Hsieh CY, Pan P, Hou T. Deep Lead Optimization: Leveraging Generative AI for Structural Modification. J Am Chem Soc. 2024 Nov 20;146(46):31357-31370.
https://doi.org/10.1021/jacs.4c11686
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有