研究背景
大环类化合物通常含有十二元环及以上的环状结构,其结构介于小分子和生物抗体药类大分子之间,这些化学结构能够与蛋白质形成较大的接触界面,相比分子量相当的直链化合物,其往往具有更高的结合亲和力和更好的选择性。同时,它们的变色龙效应可提高药物的稳定性,并赋予其有利的药代动力学特征,因而近年来逐渐成为药物研发的热点。
然而,大环药物的理性设计并不容易。其设计过程往往包括两个关键步骤:
1. 直链化合物大环化;
2. 大环结构修饰。
目前已有若干计算方法针对线性化合物进行大环化,但在“如何基于已有活性大环进行结构修饰,以提升成药性或扩展临床候选分子库”这一问题上,仍缺乏有效手段。数据库中大环分子的比例极低(如 ChEMBL 中仅占 1–2%),大环化学空间几乎是一片“未被照亮的领域”,研究者更多依赖药化经验与试错,这也进一步制约着大环药物的研发进程。
研究内容
1. 大环生成模型——CycleGPT
CycleGPT 是首个基于先导大环分子进行化学空间扩展,实现大环结构修饰的生成模型。通过引入一种渐进式迁移学习策略,模型能够从线性分子逐步迁移到具体靶点活性大环的学习任务,有效利用稀疏的大环数据,生成合理且多样的候选结构(图1)。
图1 CycleGPT示意图[1]
2. 创新的采样策略HyperTemp
在分子生成领域中,采样算法和网络架构共同决定了生成SMILES的质量。本研究提出的HyperTemp sampling在Tempered sampling的基础上进一步优化,对生成 token 的概率分布进行更精细调整,在提高新颖性的同时保持生成大环的有效性。此外,本研究引入另外13种采样策略进行对比,这是首次针对大环分子生成采样方法的系统性探讨。
3. 药物设计实例验证
在 JAK2 靶点药物设计中,研究团队利用 CycleGPT 结合 HyperTemp sampling 以及 JAK2 预测模型 CyclePred(图2),探索已知 JAK2 大环抑制剂的化学空间,获得具有高活性高选择性以及体内药效的备选大环化合物,优于上市药物。
图2 CyclePred示意图[1]
研究结果
1. 生成效果
研究人员首先评价了大环有效性与新颖性方面的指标,包括Validity、Macrocycle_ratio以及novel_unique_macrocycles。novel_unique_macrocycles为综合指标,用于衡量生成的有效,独一且新颖的大环比例。结果可以看到,在生成novel_unique_macrocycles指标上,CycleGPT结合HyperTemp sampling(CycleGPT-HyperTemp)相比其他模型(同样在大环数据集上训练后进行分子生成)具备显著优势(表1)。
表1 CycleGPT-HyperTemp与其他模型的对比[1]
2. 采样机制
为了更全面地了解HyperTemp采样方法的特点和性能,研究人员以 CycleGPT作为基础模型,并将HyperTemp替换为13种不同的采样策略,在novel_unique_macrocycles这一指标方面,HyperTemp 采样方法在所有采样算法中表现最佳。此外,研究人员进一步分析了 HyperTemp 采样算法对生成token的影响。发现在更精细的概率调整后,HyperTemp相比Tempered sampling进一步减少了对最优token的偏好,并增强了对次优token的探索,从而提高了token采样的多样性并增强了新颖性(图3)。
图3 HyperTemp采样性能[1]
3. 结构修饰能力
为了评估方法在下游靶点应用中的能力,研究人员使用CycleGPT-HyperTemp方法扩展了大环化合物Loratinib的化学空间(图4)。可以看出,生成的大环化合物正确迁移到了Loratinib附近的化学空间。此外,从生成的示例分子可以看出,CycleGPT实现了(1).大环骨架跃迁,以及 (2).大环取代基修饰。这与药物化学中的常见结构修饰方法一致,体现了CycleGPT方法所实现的结构修饰实用性。
图4 Loratinib结构修饰大环的UMAP可视化示意图[1]
4. 药物验证
在本研究中,研究人员利用 CycleGPT从已知的3个JAK2大环化合物出发,在其周围的化学空间进行探索修饰,获得5000多个候选大环分子。通过CyclePred进行JAK2活性预测,以及对接模拟,最终挑选了6个备选分子进行合成验证。6个大环分子中有3个对JAK2的抑制活性达到了nM级别。活性最强的化合物 2, IC50达到了 1.17 nM,优于上市药物 Fedratinib(表2)。
表2 化合物 1-6 的结构及体外活性[1]
在激酶谱测试中,化合物2仅仅对JAK2在内的17种野生型激酶具备一定的活性,而Pacritinib和Fedratinib抑制的野生型激酶的数量为分别为55和34(图5)。这种更优的激酶选择性对控制药物的脱靶毒性来说,意义非凡。
图5 激酶谱选择性测试[1]
此外,研究人员对化合物2进行动物实验验证。在红细胞增多症小鼠模型中,它的药效甚至优于更高剂量的对照药物。
总结
本研究提出的CycleGPT + HyperTemp + CyclePred框架,为大环化合物的结构修饰提供了全新思路:
1.方法学层面:CycleGPT引入渐进式迁移学习策略,将结构修饰问题转化为化学空间探索,创新性地缓解了长期困扰该领域的数据稀缺问题。HyperTemp采样算法提升了生成大环的新颖性,并可迁移应用于其他需要提升新颖性的序列生成任务中(例如RNA序列生成,蛋白序列生成,开放式文本生成等)。
2.工具价值:CycleGPT模型生成结果相比先导大环的修饰部分与药物化学常见修饰策略吻合,包括了大环骨架跃迁以及大环取代基修饰,展示了其较强的实用性。
3.应用前景:通过CycleGPT发现了具有优越活性与选择性的 JAK2 抑制剂候选物,并验证了其在体内红细胞增多症治疗中的潜在价值,体现了该方法在药物设计中的广阔应用前景。
该工作不仅为大环类药物设计提供了可行路径,也为人工智能驱动的药物研发拓展了新方向。未来,随着方法进一步优化和扩展,AI 有望成为点亮大环化学空间的关键引擎,加速创新药物的发现与发展。
华东理工大学博士生胡枫、华东理工大学硕士生贾晓彤和华东理工大学硕士生廖文杰为本文共同第一作者,华东理工大学/华东师范大学药学院李洪林教授、刁妍妍副研究员、朱丽丽教授、张凯教授为该文章的通讯作者。该工作得到了国家重点研发计划(2022YFC3400501)、国家自然科学基金(82425104/82404517)等项目的资助。
参考文献
[1] Hu F, Jia X, Liao W. et al. Exploring the macrocyclic chemical space for heuristic drug design with deep learning models. Communications Chemistry. 2025, 8: 299.
原文链接:
https://www.nature.com/articles/s42004-025-01686-w
供稿:胡枫
编辑:汤荣凡