

标题: Computational approaches streamlining drug discovery 作者: Anastasiia V. Sadybekov & Vsevolod Katritch 期刊:Nature 616, 673–685 (2023) 机构: University of Southern California DOI: 10.1038/s41586-023-05905-z 文章类型:综述(Review)
做一款小分子药物,平均需要约15年时间、约20亿美元投入,而临床试验的失败率高达90%。这组冰冷的数字,是每一位药物研发从业者的日常现实。尽管失败最常发生在昂贵的临床阶段,但追根溯源,大多数失败的种子其实早在发现阶段就已经埋下——靶标验证不充分、配体性质欠佳、先导化合物的ADMET与药代动力学特征不理想。
Sadybekov和Katritch在2023年发表于Nature的这篇综述,系统审视了计算方法如何在药物发现的最早期环节带来根本性变革。它不是一篇简单的技术汇编,而是一幅关于 计算驱动药物发现 (computer-driven drug discovery)的全景路线图——从化学空间的指数级扩张,到虚拟筛选方法的架构创新,到AI/深度学习的能力边界与陷阱,再到物理与数据驱动方法的深度融合。
文章开篇即指出,计算药物发现从"辅助角色"走向"核心驱动力"并非偶然,而是三个相互独立又高度协同的因素共同推动的结果:
从自动化晶体学、微晶体学到冷冻电镜(cryo-EM)技术,目前PDB数据库中已积累超过20万个蛋白质结构,覆盖了90%以上的蛋白质家族。尤其值得一提的是GPCR领域的结构突破——作为介导50%以上药物作用的膜蛋白家族,GPCR长期以来是结构解析的难题,而近年来的技术进步使得大量GPCR结构在不同功能状态下被解析,直接为配体筛选和先导化合物优化提供了高分辨率的3D模板。
对于仍缺乏实验结构的靶标,AlphaFold2和RosettaFold等AI结构预测工具提供了补充。但文章也坦率指出,AlphaFold2模型在小分子对接中的表现参差不齐:对于有实验结构同源物的靶标尚可,但对GPCR和抗菌靶标等结构同源性较低的类别,对接表现令人失望。AlphaFold2模型通常需要清理阻塞结合口袋的loop区域,或补充已知的离子/辅因子信息,才能获得合理的命中富集。
这是整篇文章的核心论述主线之一。作者从三个层次梳理了化学空间的演化格局:
实体库(In-stock collections):规模约10⁶–10⁷量级,来自100多家化学供应商的现货化合物。优点是交付快(<1周)、HTS兼容;缺点是增长缓慢、新颖性有限、维护成本高。
按需合成虚拟库与化学空间(On-demand databases and spaces):这是当前变革的核心战场,规模达10¹⁰–10¹⁵量级。以Enamine REAL数据库/空间为代表,基于"稳健反应原理"(robust reaction principle),利用精心筛选的平行合成方案和库存合成子(building blocks),保证了合成快速(<4周)、可靠(成功率>80%)且经济可行。具体而言:
生成式化学空间(Generative spaces):规模理论上可达10²³–10⁶⁰,涵盖所有理论上可能存在的类药有机分子。但与按需空间不同,生成空间中化合物的合成路径和成功率是未知的,需要额外的合成可行性预测。

文章着重强调了"更大空间"带来的三重优势:

云计算和GPU加速使大规模计算成为可能,而新一代虚拟筛选算法则致力于在速度与准确性之间找到新的平衡点——这是应对10¹⁰量级化合物库的核心挑战。

在百亿级化学空间中进行筛选,面临的并非单一的速度问题,而是速度与准确性的双重挑战:
速度瓶颈:按每个化合物10秒/CPU核的对接速度计算,筛选10¹⁰个化合物需要3,000+年的单核CPU时间,即使在云端也需约100万美元的计算费用。
假阳性灾难:在10¹⁰化合物库中,即使假阳性率低至百万分之一,也将产生10,000个假阳性命中——这些"作弊"分子利用打分函数的漏洞获得高分,可能完全淹没真正的候选命中。
文章指出了几种实用的假阳性控制策略:(1)双打分函数共识筛选;(2)选择高度多样化的命中(许多假阳性聚集于相似化合物);(3)从多个分数范围对冲选择;(4)人工审查最终候选列表中的异常相互作用模式。
同时,文章也提出了一个在gigaspace中独特的"宽容性原则":由于10¹⁰空间中潜在命中可达百万级,丢失50%的命中(假阴性)完全可以接受,因此可在一定程度上牺牲灵敏度以换取更低的假阳性率。
分子对接是最经典的虚拟筛选方法,通过将虚拟库中的分子对接到受体结构中并预测结合分数来发现命中。文章总结了对接的三大技术路径:
在标准虚拟库(<1000万化合物)的前瞻性筛选中,聚焦候选集通常能获得10–40%的实验命中率,产生具有0.1–10 µM亲和力的新化学实体。
随着库规模向REAL Space等gigascale空间扩展,传统的全库逐一对接方法遭遇了计算瓶颈。VirtualFlow等迭代方法尝试通过逐步提高对接精度来分层过滤,但计算成本仍与化合物数量线性增长,限制了其在快速膨胀的化学空间中的可扩展性。
这是文章的技术亮点之一。V-SYNTHES(Virtual Synthon Hierarchical Enumeration Screening)代表了一种全新的筛选范式,其核心思想是将化学空间的模块化构造原理融入筛选算法本身。
算法流程(以二组分反应为例):
对于三组分或四组分反应,只需迭代重复步骤3–4即可。

关键技术细节:
实际表现:
BioSolveIT的Chemical Space Docking采用了类似思路但更为激进——直接对接单个合成子片段再与骨架枚举。虽然更快,但由于不含骨架的更小片段对接可靠性下降,且反应性基团的性质常与反应产物不同,在环加成反应和三组分骨架上需要额外验证。
文章通过两张极为详尽的表格(Table 1和Table 2),系统比较了实验方法与计算方法的关键参数。以下提炼核心对比:
维度 | 传统HTS | 基于片段的药物发现 | Gigascale DEL | Gigascale VLS |
|---|---|---|---|---|
库规模 | 10⁵–10⁷ | 10³–10⁵ | 10¹⁰ | 10¹⁰–10¹⁵ |
命中率 | 0.01–0.5% | 1–5% | 0.01–0.5% | 10–40%* |
初始命中亲和力 | 弱 (1–10 µM) | 极弱 (100–1000 µM) | 中 (0.1–10 µM) | 中高 (0.01–10 µM) |
到先导化合物的定制合成数 | 500–1,000 | 500–1,000 | 200–500 | 0–50 |
专利新颖性 | 低,需改造 | 低,需理性设计 | 取决于DEL库 | 高,天然新颖 |
核心局限 | 库小、结合模式未知、设备昂贵 | NMR/X-ray设备昂贵,优化步骤多 | 假阳性多,需脱DNA重合成验证 | 计算资源(但模块化方法降低>1000倍) |
注:VLS的命中率指预测候选中经实验确认的比例。


QSPR(定量构效-性质关系):在溶解性、脂溶性、口服生物利用度、血脑屏障渗透性等理化和药代动力学性质预测上,大规模公共和私有数据集的积累使得DL-QSPR模型已能对广泛化学空间做出较好预测。
QSAR(定量构效关系):在靶标活性预测方面,模型质量高度依赖数据可用性。IDG-DREAM Drug-Kinase Binding Prediction Challenge的盲测结果揭示了几个重要事实:

开发普适性结合亲和力预测模型是AI药物发现的核心愿景。当前主流方向是利用PDBbind数据库中的蛋白-配体3D复合物结构及对应的结合数据,训练图卷积网络(Graph-CNN)、3D深度卷积网络(3D-CNN)等模型。
然而,一项关键研究发现,无论采用何种神经网络架构,对PDBbind复合物中非共价分子间相互作用的显式描述,相比仅使用配体或仅使用受体的简单近似,并未提供任何统计优势。换言之,这些DL模型的良好表现依赖于"记忆相似的配体和受体",而非真正捕捉到结合的一般规律。
文章将此归因于PDBbind数据库缺乏足够的"负空间"表示——即具有次优相互作用模式的配体,这些负例对于强制模型真正学习结合规律十分重要。
文章列举了AI面临的系统性挑战:
尽管如此,AI已开始产生实质性影响。文章列举了第一批进入临床的AI设计药物候选分子:
文章明确指出,基于物理的方法和数据驱动的方法具有互补的优缺点:
在D3R Grand Challenge 4的配体IC₅₀预测盲测中,同时使用物理和ML打分的混合方法显著优于仅用其中一种的方法。这为混合策略提供了直接的实证支持。
为加速超大规模筛选,MolPal、Active Learning和DeepDocking等方法采用了"稀疏子集对接→训练ML过滤模型→全库过滤"的迭代策略,报告可实现14–100倍的计算成本降低。但文章也指出,这些方法在快速增长的化学空间中的可扩展性尚不确定。
文章强调了一个重要的方法论原则:快速对接算法和ML模型的打分函数主要被设计和训练用于区分潜在结合物与非结合物,而非精确预测结合亲和力。对于更精确的活性预测,初始筛选得到的较小聚焦库可进一步采用自由能微扰(FEP)等更精细但更慢的方法进行分析和排序。GPU加速正在使这些精细方法在虚拟筛选后处理和先导优化阶段的更广泛应用成为可能。
文章以SARS-CoV-2主蛋白酶(Mᵖʳᵒ)作为方法学比较的核心案例,这是一个公认的高难度靶标——活性位点浅而开放,数百次传统虚拟筛选尝试几乎全部失败。
文章的一个重要判断是:尽管超大规模VLS的初始筛选结果较温和,但其总体产出与Moonshot这一更复杂、更昂贵的混合方法方案不相上下——而VLS仅需合成和测试数百个按需化合物。这表明,即便对于具有挑战性的浅口袋靶标,在gigascale级别执行、辅以准确结构和充分的测试与优化,基于结构的虚拟筛选仍可提供可行的替代方案。
生成对抗网络结合强化学习(GAN-RL)已被用于同时预测合成可行性、新颖性和生物活性,实现了"计算优化→合成→体外测试"的迭代循环。深度学习逆合成分析也在推动对新反应序列和合成路径的预测。在成熟的反应体系和充分研究的靶标家族中,这些方法已产出临床候选分子。
传统的"基因到先导化合物"流程耗时4–6年,而计算驱动的管线有望压缩至2–12个月。文章引用了两个标志性案例:
文章始终保持清醒的态度,明确指出:
文章对"消除动物实验"持审慎乐观态度:随着更准确的体外检测技术(CACO-2、MDCK、器官芯片、功能性类器官)提供更好的ADMET/PK估算,结合不断改进的计算模型,有望逐步减少乃至最终取代动物实验——美国FDA已释放了这一方向的信号。
维度 | 评价 |
|---|---|
系统性 | 从化学空间、到筛选算法、到AI/DL、到混合方法、到实战案例,构建了完整的技术图谱 |
客观性 | 既展示令人振奋的进展,也诚恳剖析AI过拟合、PDBbind局限、AlphaFold2对接失败等核心挑战 |
实用性 | Table 1(实验vs计算方法)和Table 2(虚拟筛选算法全景)可直接作为技术选型参考 |
前瞻性 | 提出"computer-driven drug discovery"的生态系统构想,超越了单一技术的讨论 |
可读性 | 以SARS-CoV-2 Mᵖʳᵒ为贯穿案例,将方法论讨论锚定在具体的药物发现场景中 |
这篇综述不会给你一个简单的答案,但它会帮你建立起关于"计算如何改变药物发现"的最完整认知框架。在AI制药泡沫与实质并存的今天,这种冷静而全面的视角尤为珍贵。
本文为服务AIDD中文社区整理,所有学术成果归原作者所有。