近日,一项名为 FoldBench 的系统性评测上线,全面评估了当前全原子预测模型在生物分子结构预测中的表现。该研究由复旦大学、上海交通大学、香港中文大学等机构的科研人员联合完成,评估对象包括DeepMind最新发布的 AlphaFold 3 以及其他四款全原子预测模型。结果显示,虽然AlphaFold 3在多项任务中表现亮眼,但整个领域仍面临诸多挑战,尤其是在泛化能力、抗体建模和核酸结构预测等方面。
研究亮点
具体结果
蛋白质-配体相互作用
在总共558个目标的测试中,AlphaFold 3取得了64.9%的成功率,领先第二名近10个百分点。研究发现,当配体对于模型是“未见过”的(即与训练数据相似度低)时,所有模型的性能都出现明显下滑,这表明当前模型在一定程度上依赖于对已知结合模式的“记忆”。此外,在识别别构位点方面,所有模型都表现不佳,这对于别构药物的开发是一个重大挑战。
蛋白质-蛋白质相互作用 (PPIs)
在一个由279个低相似度复合物组成的蛋白-蛋白复合物集合上,AlphaFold 3的对接成功率达到73.7%,显著优于其他模型。值得注意的是,AlphaFold 3能够成功预测结构域交换(domain-swapped)等复杂的构象变化。
抗体-抗原相互作用
这是当前所有模型面临的最大挑战之一。大多数模型的失败率超过60%,即便是表现最好的AlphaFold 3,成功率也仅为47.9%。研究指出,对接成功与否,与互补决定区(特别是CDR H3环)的建模精度高度相关。虽然增加采样次数可以在一定程度上提升AlphaFold 3的性能,但其他模型由于排序能力不足,收效甚微。
核酸结构预测
对DNA和RNA单体的结构预测是所有模型的另一个主要难点。虽然模型能准确捕捉发夹环等局部结构,但在预测大型RNA的整体三维折叠上普遍失败。研究人员认为,这主要是由于PDB数据库中高质量的核酸结构数据相对稀少所致。
蛋白质单体预测
作为传统任务,蛋白单体预测已较为成熟。各模型均可实现高精度预测(平均LDDT > 0.85),AlphaFold 3略胜一筹(LDDT = 0.88)。不过,Protenix在置信度评分上表现出“过度自信”的问题。
蛋白质-肽预测
对于常规短肽,大多数模型表现良好,HelixFold 3成功率高达90.0%。但在环肽建模上普遍失败,研究表明,通过在输入中明确环状连接信息可大幅提升预测效果。
总结
FoldBench首次系统、全面地对主流全原子结构预测模型进行了深入评估,不仅验证了AlphaFold 3的领先地位,也揭示了当前模型面临的共性挑战:
这些发现为后续研究指明了方向——扩大训练数据的种类与数量、优化采样与排序机制、设计更具泛化能力的新型架构。FoldBench也将作为一个持续演进的评估平台,助力结构生物学与AI模型的共同进步。
参考资料
FoldBench: An All-atom Benchmark for Biomolecular Structure Prediction. Sheng Xu, Qiantai Feng, Lifeng Qiao, Hao Wu, Tao Shen, Yu Cheng, Shuangjia Zheng, Siqi Sun. bioRxiv 2025.05.22.655600;
doi: https://doi.org/10.1101/2025.05.22.655600