期刊: Communications Chemistry 链接: https://doi.org/10.1038/s42004-025-01635-7 代码: https://github.com/IFilella/ALGen-1 https://github.com/IFilella/MolecularAnalysis 简介: 该论文的要点和创新点在于通过将生成式人工智能与基于物理的主动学习框架相结合,优化药物设计,解决了生成式模型在靶标结合、合成可及性和泛化能力方面的局限。其方法是开发了一种整合变分自编码器(VAE)与两个嵌套主动学习循环的工作流,利用化学信息学和分子建模预测器迭代优化分子生成。实验中,该工作流在 CDK2 和 KRAS 两个靶标系统上进行了测试,使用了包含已知抑制剂和虚拟筛选分子的数据集,成功生成了多样化、类药且具有高预测亲和力的分子,其中针对 CDK2 合成的 9 个分子中有 8 个具有体外活性,1 个达到纳摩尔级效力,针对 KRAS 也识别出 4 个具有潜在活性的分子。该论文展示了该工作流探索特定靶标新化学空间的能力,为药物发现开辟了新途径。

在药物发现领域,机器学习正以前所未有的力量改变着传统研发模式。其中,生成式模型(GMs)因能设计出具有特定属性的分子而备受关注,但它们在靶标结合、合成可及性和泛化能力等方面仍存在显著局限。近期,发表于《Communications Chemistry》的一项研究提出了一种创新性的生成式模型工作流,通过将变分自编码器(VAE)与嵌套的主动学习循环相结合,成功破解了这些难题,为药物研发开辟了新路径。
传统的药物发现中,机器学习方法多遵循“性质预测”或“先设计后预测”的范式,这类方法受限于对分子库的 exhaustive 评估,难以探索广阔而多样的化学空间。与之相反,生成式模型采用“先描述后设计”的逆向范式,能够在无需对有限库进行昂贵评估的情况下,生成具有预期性质的全新分子。
然而,生成式模型并非完美无缺。它们面临三大核心挑战:一是靶标结合不足,由于靶标特异性数据有限,导致基于数据的亲和力预测准确性受限;二是生成分子的合成可及性(SA)差,以往虽通过限制生成范围或强化学习等方式改善,但牺牲了分子的新颖性;三是泛化能力问题,即对训练集之外的新数据适应性差,且经实验验证的案例寥寥无几。
不同架构的生成式模型各有优劣:强化学习方法能实现目标导向生成,却受限于稀疏奖励;生成对抗网络虽能产出大量化学有效分子,却易出现模式崩溃;自回归 transformer 模型擅长捕捉长程依赖,但训练和采样速度较慢;扩散基生成模型样本多样性出色,却需大量计算资源。
为解决上述问题,研究团队开发了一种整合变分自编码器与两个嵌套主动学习循环的工作流。变分自编码器之所以被选中,得益于其连续且结构化的潜在空间,能实现样本的平滑可控插值,同时兼具快速并行采样、潜在空间可解释性及在低数据场景下的稳健性,这些特性使其与对速度、稳定性和定向探索要求极高的主动学习循环完美适配。

该图表展示了生成式模型(GM)工作流的核心流程,包含两个嵌套的迭代过程:内层主动学习(AL)循环和外层 AL 循环。内层循环中,生成的分子通过类药性(QED)、合成可及性(SA)评分和塔尼莫托相似度阈值筛选,符合条件的分子进入临时特异性集,用于微调模型;外层循环则对临时集中的分子进行 Glide 对接评分评估,达标分子进入永久特异性集。候选分子经绝对结合自由能(ABFE)模拟和生物测定验证,整个流程实现了对特定靶标高亲和力分子的定向生成与优化。
主动学习在药物发现中是一种迭代反馈过程,通过基于模型驱动的不确定性或多样性标准,优先对分子进行实验或计算评估,以最小化资源消耗实现信息增益最大化。该研究将生成式VAE直接嵌入主动学习循环:VAE并非仅从现有分子中筛选,而是在化学信息学“预言机”(评估类药性、合成可及性和多样性)的引导下生成全新分子,再经分子建模(MM)物理基“预言机”(对接分数)评估。符合预设标准的分子用于微调VAE,形成自我改进的循环,在探索新化学空间的同时聚焦高预测亲和力分子。
工作流的核心步骤清晰而严谨:首先将训练分子以SMILES形式表示并转化为输入向量;VAE先在通用训练集上学习生成可行分子,再在靶标特异性训练集上微调以增强靶标结合;生成分子后,内主动学习循环通过化学信息学预测器筛选出符合类药性、合成可及性和相似度阈值的分子,形成临时特异性集并微调VAE;若干内循环后,外主动学习循环对临时集分子进行对接模拟,符合分数阈值的分子进入永久特异性集,进一步微调VAE;最终通过严格筛选和分子模拟选出最具潜力的候选分子,并经绝对结合自由能模拟和生物测定验证。
研究团队在CDK2和KRAS两个靶标系统上测试了该工作流。CDK2是调控细胞进程的潜在肿瘤治疗靶标,虽有超10,000种已公开抑制剂,但仍缺乏选择性抑制剂;KRAS是与致命癌症相关的癌基因,其SII变构位点的抑制剂研发虽有进展,但 scaffold 单一。选择这两个靶标,旨在评估工作流在密集专利空间(CDK2)和稀疏化学空间(KRAS)中的表现。
针对CDK2,研究执行了包含16个内循环的外循环,以1061种实验性抑制剂为初始训练集,设置QED值、SA分数和相似度阈值。经过多轮循环,生成了大量分子,其中第五轮循环生成的分子亲和力显著提升,Glide分数范围达-8.0至-11.5 kcal·mol⁻¹,且多数与初始集相似度低。候选选择阶段,经严格筛选和PELE模拟优化,10个分子中6个成功合成,连同2个类似物和1个手性化合物共9个分子,其中8个在体外实验中显示活性,1个达到纳摩尔级效力。

该图展示了 CDK2 第一个外层循环中 16 个内层循环的分子生成与筛选结果。A 图为各内层循环生成的化学有效分子数量,B 图为符合内层 AL 阈值的分子数量,C 图为临时特异性集的累积富集趋势,D 图通过 UMAP 可视化显示分子在化学空间的探索过程 —— 前 5 个循环主要探索初始特异性集附近区域,从第 6 个循环开始向更远区域拓展,体现了工作流对化学空间的逐步探索能力。

该图呈现了 CDK2 五个外层循环的分子生成效果。A 图为特异性集随内 / 外层循环的累积富集趋势,虚线标记各外层循环终点;B 图 UMAP 显示各外层循环分子在化学空间的分布,呈现逐步远离初始集、探索新区域的特征;C、D 图为对接评分(Glide gscore)直方图,显示第五个外层循环生成了大量评分优于 - 8.0 kcal・mol⁻¹ 的分子,其中 28 个评分低于 - 11.5 kcal・mol⁻¹,远多于初始集的 3 个,证明亲和力优化效果显著。

该图展示了 CDK2 候选分子的筛选过程及实验结果。A 图为 Glide 评分低于 - 8 kcal・mol⁻¹ 且与初始集相似度低于 0.5 的分子散点图,红色虚线标记筛选阈值(评分≤-10 kcal・mol⁻¹,相似度≤0.3);B 表列出合成分子的分子建模(MM)亲和力预测及相似度数据;C 图为合成分子的化学结构;D 图显示 9 个合成分子中 8 个具有体外活性(IC₅₀<50 μM),其中 outer5_105 的 IC₅₀达 71 nM,验证了工作流生成分子的活性潜力。
对于KRAS G12D,已知抑制剂仅73种且分子多样性有限,研究补充了1891种经高通量虚拟筛选的未知亲和力分子作为训练集。两个并行生成过程中,基于未知集的生成因分子多样性高,接受率显著高于已知集。生成的分子亲和力大幅提升,经筛选和模拟,4个分子经ABFE模拟预测具有潜在活性,且在已知化学库中未发现相同分子或高相似度类似物。

该图呈现了 KRAS G12D 的分子生成结果。A 图为已知和未知生成过程中特异性集的累积富集趋势;B 图 UMAP 显示两种生成过程的分子形成两个独立聚类,已知过程生成的分子因结构异常(如断裂环)与未知过程分子分离;C、D 图为对接评分直方图,显示未知生成过程生成了 23,488 个评分低于 - 8.0 kcal・mol⁻¹ 的分子,其中 125 个低于 - 10.0 kcal・mol⁻¹,远多于初始集的 1 个,且多数与初始集相似度低,证明在低数据场景下的有效性。

该图展示了 KRAS G12D 候选分子的筛选与验证结果。A 图为 Glide 评分低于 - 8 kcal・mol⁻¹ 且与初始集相似度低于 0.3 的未知分子散点图,红色虚线标记筛选阈值(评分≤-9 kcal・mol⁻¹,相似度≤0.25);B 图为 Glide 评分、PELE 结合自由能(BFE)与 ABFE ΔG 的相关性分析,显示 PELE BFE 与 ABFE ΔG 相关性更高(R=0.64);C 表列出潜在活性分子的亲和力预测及相似度数据;D 图为这些分子的化学结构;E 图为临床实验中的 KRAS 抑制剂 MRTX1133 结构,凸显新分子的新颖性。
该研究开发的生成式模型工作流,通过嵌套主动学习循环和物理基预测,成功生成了针对特定靶标的多样化、类药且高亲和力的分子,尤其产出了与已知靶标 scaffold 不同的新型结构。在CDK2上的实验验证和KRAS上的虚拟验证,均证明其能有效探索新化学空间,为药物发现提供了全新范式。
这种方法不仅克服了传统生成式模型的局限,更在低数据场景下展现出强大潜力,为难以成药的靶标和稀缺数据的研发领域带来希望。未来,随着该工作流的进一步优化和应用,有望加速新药研发进程,为疾病治疗提供更多高效、新颖的候选药物。