

在药物研发领域,小分子蛋白靶标识别(反向筛选)是解析药物作用机制、推动老药新用、预测脱靶效应的核心计算技术。然而,传统分步式反向筛选流程存在误差累积、结构建模精度不足等痛点,严重制约了靶标发现的效率与准确性。
近期,百度PaddleHelix团队在预印版的研究论文《End-to-End Reverse Screening Identifies Protein Targets of Small Molecules Using HelixFold3》,提出了一种基于HelixFold3的端到端反向筛选策略,从根本上缓解了传统方法的技术瓶颈,为药物研发提供了高效工具。
反向筛选的核心目标是从海量蛋白库中,精准定位与小分子配体具有高亲和力的靶标蛋白。传统基于结构的反向筛选采用分步式流程,主要包含四个核心环节:
上述环节彼此独立,误差会逐级传递放大,最终导致靶标识别成功率偏低。此外,传统方法无法同时优化蛋白折叠与配体结合过程,难以精准表征蛋白-配体复合物的动态相互作用。

该研究的核心突破在于构建了一体化的蛋白-配体复合物预测与筛选框架,将蛋白折叠、配体对接、亲和力评估三个关键步骤整合为一个联合优化过程,从根本上消除了分步流程的误差传递问题。
HelixFold3是一款媲美AlphaFold3的高精度生物分子结构预测模型,其核心优势在于:
研究团队构建了包含100个高置信度蛋白-配体复合物,900个阴性蛋白的基准数据集,将HelixFold3端到端策略与三种传统分步流程(标准流程、基于真实蛋白结构的流程、基于真实结构+真实口袋的流程)进行了系统性对比,核心结果如下:


研究进一步对比了不同打分函数对筛选结果的影响,发现:
为验证技术的实际应用价值,研究团队针对两款临床经典药物开展了回顾性靶标筛选验证,充分展现了该策略在药物研发中的核心应用场景。
伊马替尼是治疗慢性粒细胞白血病(CML)的一线药物,后被成功重定位用于胃肠间质瘤(GIST)的治疗。研究团队构建了包含176个候选蛋白的靶标库,其中包含10个已知结合靶标。

伊布替尼是治疗B细胞恶性肿瘤的BTK抑制剂,其临床副作用(出血、感染、房颤)与脱靶激酶结合密切相关。研究团队构建了436个候选蛋白的靶标库,包含26个已知结合靶标。
基于HelixFold3的端到端反向筛选技术,通过一体化的蛋白-配体复合物建模,打破了传统分步流程的技术瓶颈,实现了靶标识别效率与精度的双重飞跃。该技术不仅为药物重定位、脱靶效应预测提供了高效工具,也为解析小分子的多靶标作用机制、推动多靶点药物设计奠定了坚实基础。
当前,该技术在跨膜蛋白靶标预测方面仍存在不足,未来可通过扩展跨膜蛋白训练数据、优化模型对膜环境的表征能力进一步提升性能。随着模型的持续迭代,端到端反向筛选有望成为药物研发领域的标准工具,加速新药从实验室走向临床的进程。
参考文献:Xu S, Ye X, Zhu M, et al. End-to-End Reverse Screening Identifies Protein Targets of Small Molecules Using HelixFold3[J]. arXiv preprint arXiv:2601.13693, 2026.