首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >加州大学团队大规模前瞻性评估 AlphaFold3类共折叠AI模型 药物研发中潜力

加州大学团队大规模前瞻性评估 AlphaFold3类共折叠AI模型 药物研发中潜力

作者头像
DrugIntel
发布2026-01-06 14:29:42
发布2026-01-06 14:29:42
940
举报
文章被收录于专栏:DrugIntelDrugIntel

药物研发的核心瓶颈之一,在于对配体-蛋白结合模式(构象与亲和力)的精准预测传统基于物理的对接技术虽已应用数十年,但受限于固定蛋白构象假设、能量函数近似等缺陷,在构象预测精度和假阳性控制上难以满足现代药物研发的高效需求。近年来,以AlphaFold3为代表的AI共折叠技术,通过扩散模型驱动的多组分复合物预测,实现了从蛋白单体结构预测到配体-蛋白复合物建模的跨越,为基于结构药物研发带来革命性可能。

加州大学旧金山分校研究团队在bioRxiv发表的最新研究,以557对SARS-CoV-2 Mac1配体复合物为核心基准,结合σ₂受体、AmpCβ-内酰胺酶、多巴胺D4受体三类靶点的大规模虚拟筛选数据,系统评估了AlphaFold3(AF3)、Boltz-2、Chai-1三款主流共折叠工具的性能。该研究不仅通过海量实验数据量化了共折叠技术的核心优势,更清晰界定了其应用边界与互补策略,为AI驱动的药物研发提供了有价值的实践参考。

一、研究设计:多维度、大规模的严谨验证体系

1. 核心基准数据集:557对Mac1配体复合物的独特价值

  • 靶点选择:SARS-CoV-2 NSP3宏结构域(Mac1)作为新兴抗病毒靶点,其活性口袋具有明确的底物结合特征(与ADP-核糖化肽竞争结合),且已有大量片段筛选和先导优化数据积累,适合作为构象预测和亲和力关联的验证模型。
  • 配体多样性557种配体均为未公开的新型化合物,通过ECFP4指纹Tanimoto系数(0.2-0.4)和最大公共子结构(MCS,均值44.8%)分析,显示出高度化学多样性,其中部分分子与训练集相似度低于 scaffold-hop 阈值(TC<0.35),有效规避了模型记忆效应的干扰
  • 实验质控:所有复合物均通过X射线晶体学解析,分辨率接近1Å,202种配体通过HTRF肽置换实验获得完整IC₅₀数据(从< 1 μM至>500μM),为构象预测精度和亲和力相关性分析提供了高质量金标准。

2. 验证维度与技术对照组

  • 核心评估指标
    • 构象预测精度:以配体重原子RMSD<2Å为有效预测标准,结合配体质心距离(<2.5Å)评估结合口袋定位准确性;
    • 亲和力关联能力:通过Pearson相关系数平均绝对误差(MAE),比较模型评分与实验IC₅₀的相关性;
    • 阳性鉴别能力:在虚拟筛选命中列表中,通过ROC曲线(AUC值)命中率曲线,评估模型区分真阳性配体与假阳性分子的能力。
  • 技术对照:以经典对接工具DOCK3.7作为基线,系统对比共折叠技术与传统基于物理方法的性能差异,同时分析不同共折叠工具(AF3、Boltz-2、Chai-1)的优势互补性。

3. 拓展验证:三类靶点的虚拟筛选数据集

为验证共折叠技术的泛化能力,研究选取三类结构与功能差异显著的靶点:

  • AmpCβ-内酰胺酶(1.7亿分子筛选后1293个实验验证分子,247个真阳性);
  • σ₂受体(4.9亿分子筛选后506个实验验证分子,201个真阳性);
  • 多巴胺D4受体(1.38亿分子筛选后541个实验验证分子,205个真阳性)。 这些数据集的配体多样性(平均TC=0.12-0.15)显著高于Mac1基准集,且与已知配体相似度极低,更贴近真实药物研发中的大规模虚拟筛选场景。

二、核心发现:共折叠技术的三大突破性进展

1. 构象预测精度:超越传统对接,且或许具备泛化能力

在Mac1配体复合物的构象预测中,共折叠技术全面超越DOCK3.7:

  • 整体性能:AF3、Chai-1、Boltz-2的成功率(RMSD<2Å)分别为72.2%、66.6%、52.1%,而DOCK3.7仅为40.9%;在结合口袋定位上,共折叠工具的配体质心距离达标率(92%-94%)显著高于DOCK3.7(83%)。
  • 泛化能力:通过分析配体与训练集的相似度(TC和MCS)与预测精度的相关性,发现AF3的RMSD与相似度指标无显著关联(Pearson r=0.065),即使对于TC<0.2、MCS<40%的低相似度配体,仍能实现1Å以内的精准预测【需辩证看待这里的结果】。
  • 构象变化捕捉局限:值得注意的是,共折叠技术在预测蛋白局部构象重排上表现不足——对于Mac1的两种特征构象(Phe156肽键翻转的扭曲态、Gly130/Ala129环区8Å位移的开放态),AF3的正确预测率仅为21%(扭曲态)和0%(开放态),且存在1.5%的扭曲态假阳性预测,这一局限可能与晶体堆积效应及模型对弱相互作用驱动的构象变化敏感性不足有关

2. 亲和力预测:Boltz-2实现定量级关联,优于传统对接

配体亲和力(IC₅₀)的精准预测是减少药物研发试错成本的关键,研究发现:

  • 模型性能排序Boltz-2的pIC₅₀预测与实验值相关性最强(r=0.6),经线性校准后MAE降至0.54 pIC单位(约0.7 kcal/mol);AF3的配体特异性pLDDT评分与IC₅₀相关性为0.314,虽弱于Boltz-2,但仍优于DOCK3.7(r=-0.225)。
  • 构象-亲和力关联共折叠技术的构象预测精度与亲和力存在负相关(AF3:r=-0.297;Boltz-2:r=-0.387),即RMSD越小(构象越准确),配体亲和力通常越高;而DOCK3.7的构象预测精度与亲和力无明显关联,这一差异揭示共折叠技术能更好捕捉影响结合强度的关键相互作用(如氢键、疏水堆积)。
  • 模型设计差异:Boltz-2通过独立的亲和力预测模块实现高效定量关联,而AF3、Chai-1的置信度评分(pLDDT、ipTM)主要用于评估构象可靠性,虽能间接反映亲和力,但定量能力有限,提示共折叠工具的功能定位需根据研发需求选择

3. 技术互补性:共折叠与传统对接的误差非冗余

通过分析不同方法预测误差的相关性,发现:

  • 共折叠工具内部(AF3与Chai-1)的误差相关性较高(r=0.72),而共折叠与传统对接(AF3与DOCK3.7)的误差相关性较低(r=0.45),表明两类技术的误差来源存在本质差异——对接技术的误差主要源于物理模型近似,而共折叠技术的误差与训练数据分布、模型架构相关
  • 这种非冗余特性为组合策略提供了基础:在Mac1数据集上,部分被DOCK3.7误判的配体(RMSD>2Å),AF3能实现精准预测(RMSD<1Å),反之亦然,证明两类技术的互补使用可提升整体预测可靠性

三、应用边界:共折叠技术在虚拟筛选中的挑战

尽管在单一靶点的构象和亲和力预测中表现优异,但共折叠技术在大规模虚拟筛选的阳性鉴别任务中仍面临显著挑战

1. 阳性鉴别能力有限

在σ₂受体、AmpCβ-内酰胺酶、多巴胺D4受体的虚拟筛选命中列表中:

  • DOCK3.7的AUC值分别为78.8、76.5、71.0,而AF3的AUC值仅为56.1、60.5、46.4,甚至低于随机水平(D4靶点);
  • Boltz-2的表现优于AF3(σ₂受体AUC=83.8、AmpC AUC=68.1、D4 AUC=71.3),但仅在σ₂受体上超越传统对接技术,在另外两个靶点上仍相近或稍逊一筹。 【注意:这几个数据集的或许分子都是由传统对接方法筛选得出,进行测试对传统方法有利

2. 高多样性配体的适应不足

虚拟筛选数据集的配体化学多样性(平均TC=0.12-0.15)远高于Mac1基准集(TC=0.36),且与已知配体的相似度极低(TC=0.11-0.19),共折叠技术在这类"全新化学空间"中的泛化能力下降,可能源于训练集中缺乏足够的高多样性配体-蛋白复合物数据,导致模型难以学习到普适性的结合规律。

3. 计算效率制约大规模应用

共折叠技术的计算复杂度远高于传统对接——DOCK3.7可在CPU集群上处理数亿至十亿级化合物库,而AF3、Boltz-2等工具需依赖GPU阵列,单分子建模时间是对接技术的千倍以上,难以直接应用于首轮大规模虚拟筛选,更适合作为对接后的重排工具。

四、技术启示:共折叠技术在药物研发中的优化应用策略

1. 分阶段应用:适配研发全流程

  • 苗头化合物发现阶段:采用"对接初筛+共折叠重排"的组合策略——通过DOCK3.7等高效对接工具完成数亿级化合物库的快速筛选,选取Top 1%-5%的命中分子进行共折叠重排,利用共折叠技术的构象精准性过滤假阳性,提升苗头化合物的命中率。
  • 先导化合物优化阶段:以共折叠技术为核心——针对苗头化合物的衍生物库,通过Boltz-2预测结合构象,结合Boltz-2的亲和力定量预测,指导结构修饰方向(如氢键供体/受体优化、疏水口袋填充),减少无效合成与实验验证。
  • 特殊靶点针对性应用:对于构象多变的靶点(如GPCRs、酶的变构位点),共折叠技术可捕捉配体诱导的蛋白构象变化,发现传统对接(基于单一晶体结构)遗漏的变构配体,拓展药物作用模式。

2. 技术迭代方向:突破现有瓶颈

  • 数据增强:构建高多样性、高覆盖度的配体-蛋白复合物训练集,尤其补充全新化学骨架、变构结合模式的复合物数据,提升模型在未知化学空间的泛化能力;
  • 模型优化:融合物理约束与深度学习,减少模型"幻觉"(如Masters等人发现的非物理相互作用预测《Investigating Whether Deep Learning Models for Co-Folding Learn the Physics of Protein-Ligand Interactions》),提升对蛋白构象变化的捕捉能力;
  • 效率提升:通过模型轻量化、分布式计算优化,降低共折叠技术的计算成本,推动其在中大规模化合物库筛选中的应用。

五、总结:AI共折叠技术重塑药物研发的底层逻辑

该研究通过557对Mac1复合物的精准验证和三类靶点的虚拟筛选测试,在大规模实验层面厘清了共折叠技术的核心优势与应用边界:其在构象预测精度、亲和力定量关联上的突破,本质上是深度学习对配体-蛋白结合规律的高效建模,弥补了传统物理对接的固有缺陷;而在大规模虚拟筛选中的局限,则反映了当前模型在未知化学空间泛化能力和计算效率上的短板。

对于药物研发从业者而言,共折叠技术并非传统对接的替代者,而是互补者——通过"初筛用对接、重排用共折叠、优化用组合"的分层策略,可实现"效率与精度"的平衡。随着模型架构的持续优化、训练数据的不断丰富,以及与自由能计算(如FEP)等技术的融合,共折叠技术有望在未来3-5年成为结构基药物研发的核心支撑工具,推动药物研发从 经验驱动 向 精准预测驱动 的转型。

参考文献:Jongbin Kim, et al. Large scale prospective evaluation of co-folding across 557 Mac1-ligand complexes and three virtual screens, bioRxiv 2025.12.25.696505

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugIntel 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、研究设计:多维度、大规模的严谨验证体系
    • 1. 核心基准数据集:557对Mac1配体复合物的独特价值
    • 2. 验证维度与技术对照组
    • 3. 拓展验证:三类靶点的虚拟筛选数据集
  • 二、核心发现:共折叠技术的三大突破性进展
    • 1. 构象预测精度:超越传统对接,且或许具备泛化能力
    • 2. 亲和力预测:Boltz-2实现定量级关联,优于传统对接
    • 3. 技术互补性:共折叠与传统对接的误差非冗余
  • 三、应用边界:共折叠技术在虚拟筛选中的挑战
    • 1. 阳性鉴别能力有限
    • 2. 高多样性配体的适应不足
    • 3. 计算效率制约大规模应用
  • 四、技术启示:共折叠技术在药物研发中的优化应用策略
    • 1. 分阶段应用:适配研发全流程
    • 2. 技术迭代方向:突破现有瓶颈
  • 五、总结:AI共折叠技术重塑药物研发的底层逻辑
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档