
DRUGONE
准确而快速地评估蛋白–配体结合亲和力是早期药物发现的关键。然而,物理学方法虽准确但昂贵,经验打分函数虽高效却不稳定;现有机器学习方法在泛化到新蛋白或新化学系列时常失效。研究人员提出 CORDIAL:一种带有物理归纳偏置的深度学习框架,通过仅基于相互作用的距离依赖特征来学习蛋白–配体界面的物化规律,避免直接参数化化学结构。在模拟真实应用场景的CATH 超家族留出(LSO)验证中,CORDIAL 在未见蛋白家族上保持了预测性能与概率校准,优于多种当代 3D-CNN 与 GNN 基线,并显著强于非 ML 的打分基线。该结果证明:将任务相关的物理原则编码进模型架构,是获得可泛化结构-基础亲和力排序模型的有效途径。

药物发现需要在庞大化学空间中高效筛选高质量命中分子。传统计算路线在“精度–速度”之间难以兼顾;ML 虽被寄望弥合两者,但广泛暴露出分布外(OOD)泛化差的问题。研究人员指出,主流结构中心表示(体素/图)易在有限数据上学习到与具体子结构相关的伪相关,与可迁移的分子相互作用物理相竞争;再加之常见的验证切分(随机、时间、留一个蛋白、序列相似度)无法真正检验 OOD 能力,导致模型在真实前瞻应用中表现“看上去很美、用起来失灵”。
方法

结果
在“未见蛋白家族”上的亲和力阈值判别
在随机验证下,各深度模型表现均佳;但切换至 CATH-LSO 时,3D-CNN 与 GAT 的 ROC-AUC 明显下降,尤其在低阈值段(pKd ≥1–4)与最高阈值段(≥8);而 CORDIAL 的中位 ROC-AUC 基本保持,显著优于非 ML 基线。这表明仅基于相互作用空间的表示与架构抑制了子结构伪相关,提升了 OOD 判别能力。

混淆矩阵与序等级指标
从归一化混淆矩阵看,随机分割下三类深度模型均呈对角主导;但在 CATH-LSO 上,GAT/3D-CNN出现更多偏离对角的误判;而 CORDIAL 在多数 LSO 组上仍保持更清晰的对角带。
量化指标方面:在 CATH-LSO 下,GAT/3D-CNN 的 QWK 下探至 ~0.2–0.3,MAE 上升;CORDIAL 维持中位 QWK ~0.65、MAE ~1.5 个等级,且 **“±1 等级准确率”**最高,体现更稳健的序等级排序能力。


按蛋白目标的细粒度评估
研究人员对 10 个代表性目标(各来自一个 LSO 测试集)进一步作图:GAT/3D-CNN在多目标上给出分散预测;而 CORDIAL 更接近对角集中。也有全体方法均困难的个例(如某酶家族成员),提示特定超家族的理化特性对单点亲和力模型构成挑战。

模型概率校准(OOD 条件)
在 CATH-LSO 上,传统打分在低阈值区间校准差;GAT/3D-CNN的概率–准确率曲线近乎扁平,难以作为真实概率解读。CORDIAL 在 pKd ≥1–6 的阈值段呈接近对角线的线性关系,仅在更高阈值(≥7, ≥8)出现过置信/压缩现象,但总体仍显著优于对照。这与其按阈值独立学习的训练策略及物理归纳偏置一致。

特征显著性与物理可解释性
研究人员对 CORDIAL 做显著性(梯度)分析:
整体呈现出距离依赖、化学合理、随阈值层级演化的解释模式。

讨论
研究人员通过严格的 CATH-LSO 基准与交互作用-唯一路线的架构设计,验证了如下结论:
总体而言,CORDIAL 提供了一条可落地的路径:在适度规模数据上,通过将任务物理显式融入表示与架构,获得可泛化、可解释、校准良好的结构-基础亲和力排序模型;可与传统物理方法互补,加速早期命中发现与可信 AI 工具的构建。
整理 | DrugOne团队
参考资料
B.P. Brown, A generalizable deep learning framework for structure-based protein–ligand affinity ranking, Proc. Natl. Acad. Sci. U.S.A. 122 (42) e2508998122,
https://doi.org/10.1073/pnas.2508998122 (2025).
内容为【DrugOne】公众号原创|转载请注明来源