Nat. Mach. Intell. | 消除数据偏差可提升结合亲和力预测的泛化性能

用户1151118

发布于 2026-01-08 14:09:35

270

DRUGONE

计算机辅助药物设计依赖于准确的评分函数来预测蛋白–配体相互作用的结合亲和力。然而，PDBbind 数据库与评分函数比较评估基准（CASF）之间存在严重的训练–测试数据泄漏，使得当前深度学习模型的性能被过度估计。为此，研究人员提出了一个基于结构的过滤算法，构建了一个新的训练集 PDBbind CleanSplit，在消除数据泄漏与冗余后重新训练多种主流模型。结果显示，这些模型的基准性能显著下降，表明其高分主要源自数据泄漏。相比之下，研究人员提出的 GEMS（Graph neural network for Efficient Molecular Scoring）模型在 CleanSplit 上仍保持高性能，并能泛化至独立测试集。GEMS 结合稀疏图建模与语言模型迁移学习，实现了对蛋白–配体结合的真实理解，为结构基础药物设计提供了鲁棒的泛化框架。

结构基础药物设计（SBDD）旨在设计能高亲和力结合特定靶蛋白的小分子药物。近年来，深度神经网络的引入推动了计算药物设计的革新，从蛋白质折叠（如 RoseTTAFold、AlphaFold3）到去噪扩散模型（如 DiffSBDD），AI 能够生成全新的蛋白–配体结合模式。然而，这些生成的结合构象并不保证具有药物级别的亲和力，因此高质量的评分函数成为关键。传统基于力场或经验的打分方法（如 AutoDock Vina、GOLD）计算开销大且准确度有限。虽然卷积神经网络和图神经网络模型的出现提升了预测能力，但泛化性差仍是主要瓶颈。研究人员发现，许多模型在独立数据集上的表现远低于 CASF 基准，原因在于 PDBbind 与 CASF 数据集之间的高度相似性导致了训练–测试泄漏。这使得模型在测试集上“记忆”训练数据而非学习真实相互作用规律。

方法概要

数据集：基于 PDBbind v2020（约 19,443 个复合物），CleanSplit 通过蛋白结构比对（TM-align）、配体指纹相似度（Tanimoto）与位姿 RMSD 过滤获得约 18,600 个样本。
特征构建：节点特征包含原子类型、芳香性、氢键数等；蛋白节点补充氨基酸种类与语言模型嵌入；全局特征初始化自 ChemBERTa 生成的配体向量。
模型训练：基于 PyTorch Geometric 实现，五折交叉验证，早停机制，GPU 加速（RTX 3090/4090）。
模型比较：包括 Pafnucy、GenScore、传统评分函数（AutoDock Vina、GlideScore）以及搜索算法基线。

结果

结构相似性过滤与 CleanSplit 构建

研究人员开发了一种结构层面的聚类算法，结合蛋白结构相似度（TM-score）、配体化学相似度（Tanimoto 指数）与结合位姿相似度（对齐 RMSD）三个指标来检测数据泄漏。分析发现，PDBbind 与 CASF 间约 49% 的复合物具有高度结构相似性，即存在严重的“训练–测试重叠”。CleanSplit 通过多层筛选规则删除了这些重复结构和高度相似的配体，使训练集与 CASF 严格分离，并进一步减少了训练集内部的冗余（移除约 7.8% 数据），最终形成一个更具多样性的训练基础。