
期刊: ChemRxiv 链接: https://doi.org/10.26434/chemrxiv-2025-dz765-v2 代码: https://github.com/eflynn8/pharmacophore-diffusion 简介: 该论文提出了 PharmacoForge,一种基于扩散模型的 3D 药效团生成方法,其创新点在于以蛋白质口袋为条件生成药效团,解决了传统虚拟筛选耗时、从头设计分子无效或合成不可达的问题。该方法通过构建蛋白质 - 药效团异质图,利用去噪扩散概率模型进行训练,实现从噪声中生成药效团。实验中,使用 LIT-PCBA 和 DUD-E 数据集进行评估,结果显示 PharmacoForge 在 LIT-PCBA 基准上超越其他药效团生成方法,生成的药效团筛选出的配体与从头生成配体对接性能相当且应变能更低。该论文证明了 PharmacoForge 在结构 - based 药物设计中的有效性,为药物研发提供了高效工具。

在结构导向药物设计(SBDD)领域,虚拟筛选与从头分子设计是两大核心策略,但二者长期受限于效率瓶颈与生成有效性问题。由匹兹堡大学计算与系统生物学系团队开发的PharmacoForge模型,通过扩散模型赋能药效团生成,为突破这些瓶颈提供了创新性解决方案。该研究以蛋白质口袋结构为条件,实现了高质量3D药效团的自动化生成,其衍生的筛选结果在有效性、可及性与结合效能上均展现出显著优势。
药效团作为配体与蛋白质结合口袋关键相互作用的空间与特征描述符,在虚拟筛选中具有不可替代的效率优势。传统分子对接虽能评估数百万化合物,但计算成本高昂且耗时显著;而药效团搜索凭借亚线性时间复杂度,可在数百万化合物库中实现数量级级别的加速筛选。然而,现有自动化药效团生成方法存在明显局限:Apo2ph4依赖片段对接与人工校验,流程繁琐且泛化性有限;PharmRL虽基于强化学习实现自动化,但需针对每个蛋白系统提供正负样本训练,推广难度大。
从头分子设计领域同样面临困境。尽管 equivariant扩散模型(如DiffSBDD)与自回归模型(如Pocket2Mol)已实现基于蛋白质口袋的配体生成,但生成分子常存在构象不合理、合成不可达等问题,严重制约其实用价值。PharmacoForge创新性地将生成模型的焦点从直接生成配体转向生成药效团,通过"先定义相互作用模式,再筛选现有分子"的思路,完美规避了上述缺陷。

该图展示了 PharmacoForge 中蛋白质 - 药效团图的构建和训练过程。首先,将 CrossDocked 数据集中的蛋白质和配体通过 Pharmit 识别相互作用药效团;接着提取药效团中心和最近的蛋白质原子,构建蛋白质 - 药效团图;随后对该图进行迭代加噪,以训练模型的去噪过程。
PharmacoForge的核心在于构建了蛋白质-药效团异质图的 equivariant扩散过程。模型输入为包含蛋白质原子与药效团中心的图结构:蛋白质节点编码原子类型(如C、N、O等),药效团节点则包含3D坐标与特征类型(如氢键供体/受体、疏水基团等6类关键相互作用特征)。训练过程中,仅对药效团节点施加噪声,通过几何向量感知器(GVP)网络学习去噪过程——该网络能同时处理标量特征(如原子类型)与向量特征(如3D坐标方向),确保对欧几里得变换(旋转、平移、反射)的 equivariance,这对维持分子空间结构的物理意义至关重要。
模型训练采用CrossDocked2020数据集,包含18,000余个蛋白-配体复合物及2250万个对接构象。通过Pharmit工具提取参考药效团中心后,随机子采样3-8个中心以增强数据多样性,最终使用Adam优化器(学习率1e-4)训练80个epoch,批大小设为24。生成阶段,模型以蛋白质口袋原子为条件,初始化随机特征与坐标的药效团节点,经1000步扩散去噪后,输出具有明确3D坐标与特征类型的药效团,可直接转换为筛选查询。

这是由 Pharmit 识别的、与 AmpC-β- 内酰胺酶(PDB 1L2S)结合的配体的参考药效团。图中球体颜色代表不同特征类型,蓝色为正离子、绿色为疏水基团、橙色为氢受体、红色为负离子、紫色为芳香族、白色为氢供体,直观呈现了配体与蛋白质相互作用的关键特征。

该图展示了为 AmpC-β- 内酰胺酶(PDB 1L2S)的结合口袋生成含 4 个中心的药效团的过程,共经历 1000 个扩散时间步(t)。球体颜色对应特征类型(与上图一致),呈现了药效团从初始状态到最终生成的动态变化。
在LIT-PCBA基准(含15个蛋白靶点及对应的活性/诱饵化合物)上,PharmacoForge生成的药效团在关键指标上全面领先:12/18靶点的F1分数最佳,13/18靶点的富集因子(EF)最优。尤为重要的是,其为所有靶点均生成了EF>1的药效团,而PharmRL与Apo2ph4分别有3个和5个靶点未能达到这一水平,证明其稳健性更优。EF值量化了筛选结果中活性化合物的富集程度,PharmacoForge的平均EF较传统方法提升约30%,显示其捕捉关键相互作用的能力更强。

此图为 LIT-PCBA 基准测试中 PharmacoForge、PharmRL 和 Apo2ph4 的 Log EF 结果。每个条形代表每种方法在每个目标上的最高 Log EF 值,显示 PharmacoForge 在 13 个目标上的 EF 表现最佳,优于其他两种方法。

该图呈现了 LIT-PCBA 基准测试中三种方法的 F1 分数结果。每个条形代表每种方法在每个目标上的最高 F1 分数,表明 PharmacoForge 在 12 个目标上的 F1 分数最优,体现了其在筛选活性化合物方面的优势。
在DUD-E数据集(102个蛋白靶点)上,将生成药效团与基于参考配体构建的"真实"药效团对比发现:37/102靶点的最大EF相当或更优,95/102靶点的平均召回率更高。这表明模型不仅能复现已知相互作用,还能发现未被参考配体覆盖的有效作用模式。值得注意的是,生成药效团的无效查询(未返回结果)比例为40%,显著低于参考药效团的52%,说明其设计的相互作用模式更易在化合物库中找到匹配分子。

此图对比了 PharmacoForge 生成的 30 个药效团与从 DUD-E 提供的参考配体中随机抽样的 30 个药效团在每个目标上的最大 EF 分数,直观展示了两者在富集活性化合物能力上的差异。

该图比较了 PharmacoForge 生成的药效团与参考药效团在每个目标上的最大 F1 分数,反映了两种药效团在平衡精确率和召回率方面的性能差异。

比较 PharmacoForge 生成的药效团和参考药效团在每个目标上的最大 F1 分数,进一步验证两种药效团在筛选效果上的表现。
通过GNINA工具评估配体结合效能发现,PharmacoForge筛选出的配体与DiffSBDD、Pocket2Mol生成的配体在对接评分(Vina score、CNN affinity等)上相当,但应变能(衡量构象合理性的关键指标)存在数量级差异:前者中位应变能仅0.05 kcal/mol,而后两者分别为295.7和351.5 kcal/mol。去应变处理后,从头生成配体的结合亲和力显著下降(Vina score上升3.2-5.1 kcal/mol),而PharmacoForge筛选配体仅上升0.37 kcal/mol,证明其筛选的分子具有更接近生理状态的天然构象。

此图以对数展示了不同模型生成的配体在最小化构象中的平均应变能。结果显示 PharmacoForge 筛选出的配体应变能远低于 DiffSBDD 和 Pocket2Mol 生成的配体,说明其配体构象更合理。

该图展示了最小化后配体的 Vina 对接分数分布,包含每个 DUD-E 目标的前 100 个配体。小提琴图上半部分为原始构象分数,下半部分为去应变构象分数,显示 PharmacoForge 的配体在去应变后仍保持较好的结合亲和力。

此图呈现了对接后配体的预测结合亲和力分布,包含每个目标的前 100 个配体,并加入随机基线对比。结果显示 PharmacoForge 筛选的配体与其他方法生成的配体相比,在结合亲和力上表现相当且更稳定。
PharmacoForge的创新点在于:将生成模型的优势从"创造新分子"转向"定义有效相互作用空间",既保留了虚拟筛选的高效性,又确保了配体的真实性与合成可及性。其技术价值体现在三方面:一是自动化流程消除了药效团设计的领域知识壁垒,使非专家也能开展高效筛选;二是可解释性强的药效团特征支持"人机协同"优化,便于专家介入调整关键相互作用;三是与基于药效团的从头设计模型兼容,为构建"药效团生成-配体优化"全流程自动化奠定基础。
未来可通过两方面改进提升性能:一是引入特征方向性预测(如氢键的供体/受体方向),增强相互作用描述的精确性;二是实现药效团大小的模型自主决策,避免当前人工指定3-8个中心的局限性。目前,模型代码已开源(见文章开头链接),并提供Google Colab笔记本供快速试用,为结构导向药物设计领域提供了实用且可靠的新工具。
该研究通过跨领域融合扩散模型与药效团理论,不仅解决了现有方法的核心痛点,更重新定义了生成模型在药物发现中的应用范式——从直接生成分子转向生成"分子必须满足的约束条件",为提升药物研发效率开辟了新路径。