Proc. Natl. Acad. Sci. | 一种可泛化的基于结构的蛋白–配体亲和力深度学习排序框架

DrugOne

发布于 2025-11-17 20:46:57

文章被收录于专栏：DrugOneDrugOne

DRUGONE

准确而快速地评估蛋白–配体结合亲和力是早期药物发现的关键。然而，物理学方法虽准确但昂贵，经验打分函数虽高效却不稳定；现有机器学习方法在泛化到新蛋白或新化学系列时常失效。研究人员提出 CORDIAL：一种带有物理归纳偏置的深度学习框架，通过仅基于相互作用的距离依赖特征来学习蛋白–配体界面的物化规律，避免直接参数化化学结构。在模拟真实应用场景的CATH 超家族留出（LSO）验证中，CORDIAL 在未见蛋白家族上保持了预测性能与概率校准，优于多种当代 3D-CNN 与 GNN 基线，并显著强于非 ML 的打分基线。该结果证明：将任务相关的物理原则编码进模型架构，是获得可泛化结构-基础亲和力排序模型的有效途径。

药物发现需要在庞大化学空间中高效筛选高质量命中分子。传统计算路线在“精度–速度”之间难以兼顾；ML 虽被寄望弥合两者，但广泛暴露出分布外（OOD）泛化差的问题。研究人员指出，主流结构中心表示（体素/图）易在有限数据上学习到与具体子结构相关的伪相关，与可迁移的分子相互作用物理相竞争；再加之常见的验证切分（随机、时间、留一个蛋白、序列相似度）无法真正检验 OOD 能力，导致模型在真实前瞻应用中表现“看上去很美、用起来失灵”。

方法

表示与特征：CORDIAL 不直接编码化学拓扑或三维坐标，而是对蛋白-配体原子对在 0–16 Å 距离范围内的物化属性交叉相关进行分箱累计，构成“相互作用径向分布函数（RDF）矩阵”（64×64：距离×特征）。特征覆盖带电/极性、氢键、疏水/芳香、范德华/极化等对偶组合，并区分同号/异号等物理方向性。
模型架构：首先对每个特征通道沿“距离”维做分组一维卷积（学习各类相互作用随距离的平滑/峰值）；随后用轴向自注意力先按距离、再按特征进行全局建模，实现远程距离依赖与特征间耦合；最后用 MLP 输出8 个累积阈值（pKd ≥1…≥8）的序等级概率。
训练与验证：以序等级分类范式训练（每个阈值独立二分类损失），并在随机 5% 验证与CATH-LSO两套切分下评估；与典型 3D-CNN、GAT（图注意力）及传统打分基线对比。

结果

在“未见蛋白家族”上的亲和力阈值判别

在随机验证下，各深度模型表现均佳；但切换至 CATH-LSO 时，3D-CNN 与 GAT 的 ROC-AUC 明显下降，尤其在低阈值段（pKd ≥1–4）与最高阈值段（≥8）；而 CORDIAL 的中位 ROC-AUC 基本保持，显著优于非 ML 基线。这表明仅基于相互作用空间的表示与架构抑制了子结构伪相关，提升了 OOD 判别能力。

混淆矩阵与序等级指标

从归一化混淆矩阵看，随机分割下三类深度模型均呈对角主导；但在 CATH-LSO 上，GAT/3D-CNN出现更多偏离对角的误判；而 CORDIAL 在多数 LSO 组上仍保持更清晰的对角带。

量化指标方面：在 CATH-LSO 下，GAT/3D-CNN 的 QWK 下探至 ~0.2–0.3，MAE 上升；CORDIAL 维持中位 QWK ~0.65、MAE ~1.5 个等级，且 **“±1 等级准确率”**最高，体现更稳健的序等级排序能力。

按蛋白目标的细粒度评估

研究人员对 10 个代表性目标（各来自一个 LSO 测试集）进一步作图：GAT/3D-CNN在多目标上给出分散预测；而 CORDIAL 更接近对角集中。也有全体方法均困难的个例（如某酶家族成员），提示特定超家族的理化特性对单点亲和力模型构成挑战。

模型概率校准（OOD 条件）

在 CATH-LSO 上，传统打分在低阈值区间校准差；GAT/3D-CNN的概率–准确率曲线近乎扁平，难以作为真实概率解读。CORDIAL 在 pKd ≥1–6 的阈值段呈接近对角线的线性关系，仅在更高阈值（≥7, ≥8）出现过置信/压缩现象，但总体仍显著优于对照。这与其按阈值独立学习的训练策略及物理归纳偏置一致。

特征显著性与物理可解释性

研究人员对 CORDIAL 做显著性（梯度）分析：

在最低阈值，模型学到短距离强接触普遍惩罚（如 <~2.5 Å 的排斥）。
随着阈值提升至中高区间，在物理合理距离（~2.5–5.0 Å）上，若干相互作用（如带电/氢键/芳香-疏水耦合等）出现连续的正向贡献带；
最高阈值下显著性图更“稀疏”，符合高亲和力依赖少数优化相互作用的直觉。

整体呈现出距离依赖、化学合理、随阈值层级演化的解释模式。

讨论

研究人员通过严格的 CATH-LSO 基准与交互作用-唯一路线的架构设计，验证了如下结论：

架构归纳偏置很关键。结构中心 3D-CNN/GNN 的灵活性高，但在有限数据下易学到与子结构频次相关的捷径；而相互作用-唯一表示抑制伪相关、更易学习可迁移的物理规律，因此在 OOD 评测更稳健。
良好校准有实际价值。在前瞻筛选中，分数若可作为真实活动概率解读，将减少“逐靶点再校准”的成本，提升从虚拟筛选到实验验证的衔接效率。
限制与展望。现版本牺牲了部分几何分辨率（采用 1D 距离剖面）且未显式处理构象/姿势判别；未来可引入几何关系约束、可学习的原子对嵌入、更细致的数据清洗与靶标特异的药效团增强。同时，基准还可更严格地处理多结构域蛋白的潜在泄漏，推动形成类似结构预测领域那样的“社区级挑战”。

总体而言，CORDIAL 提供了一条可落地的路径：在适度规模数据上，通过将任务物理显式融入表示与架构，获得可泛化、可解释、校准良好的结构-基础亲和力排序模型；可与传统物理方法互补，加速早期命中发现与可信 AI 工具的构建。

整理 | DrugOne团队

参考资料

B.P. Brown, A generalizable deep learning framework for structure-based protein–ligand affinity ranking, Proc. Natl. Acad. Sci. U.S.A. 122 (42) e2508998122,

https://doi.org/10.1073/pnas.2508998122 (2025).

内容为【DrugOne】公众号原创｜转载请注明来源

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-10-23，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习