
DRUGONE
药物研发过程中,大量候选化合物最终失败并非因为活性不足,而是由于难以预测的 ADMET(吸收、分布、代谢、排泄与毒性)问题。研究显示,大约 30% 的临床失败都与 ADMET 缺陷相关。传统 ADMET 方法通常依赖 logP、溶解度或氢键供体数量等宏观分子性质,但这些指标缺乏原子层面的机制解析能力,因此很难真正解释药物为何会在人体内出现代谢、毒性或分布异常。
研究人员提出了“Avoid-ome(避坑组)”这一概念,用于描述一组决定药物 ADMET 行为的关键蛋白。这些蛋白并不是传统意义上的治疗靶点,而是药物研发中必须规避的“反靶点(anti-targets)”。为了系统解决这一问题,研究人员发起了 OpenADMET 开放科学计划,希望通过高通量结构生物学、主动学习、机器学习与开放社区协作,建立具有机制解释能力的大规模 ADMET 数据体系。OpenADMET 的核心理念是:不再将 ADMET 视为药物研发后期的“淘汰机制”,而是在分子设计初期就主动研究和建模这些风险。研究人员希望通过构建开放、标准化、可扩展的数据资源,以及结合结构生物学获得的“真实原子级相互作用信息”,推动药物研发从经验规则时代迈向真正的多参数理性设计时代。

过去二十年中,药物研发出现了大量新型治疗模式,但小分子药物依然占据 FDA 批准药物的大多数。其核心优势在于:小分子能够广泛分布于人体组织与细胞内部,具备成熟且低成本的工业化生产体系,同时研究人员对于小分子与蛋白相互作用机制的理解也不断加深,使共价抑制剂、变构调节剂、蛋白降解剂以及 RNA/PPI 调节剂等新型策略迅速发展。
然而,小分子药物“能够影响身体几乎所有蛋白”的特性也带来了巨大挑战。药物不仅需要高效结合目标蛋白,还必须避免与大量非目标蛋白发生不良作用。此外,药物还必须具备合适的代谢稳定性、组织分布能力以及低毒性特征。
这意味着药物研发本质上是一个复杂的多参数优化问题。虽然每个疾病靶点都不同,但 ADMET 问题往往来源于一组共享的蛋白与理化机制,因此建立通用预测体系具有极高价值。过去几十年里,研究人员已经意识到,大多数 ADMET 问题实际上由有限数量的蛋白和理化因素驱动,但相关研究仍缺乏系统性与结构层面的统一框架。
当前机器学习模型已经开始用于 ADMET 预测,包括分子指纹、分子图、三维几何模型以及蛋白语言模型等。然而研究人员指出,真正阻碍突破的核心问题有两个:第一,高质量 ADMET 数据极其稀缺;第二,大多数模型缺乏原子级机制解释能力,无法真正理解药物与人体蛋白之间的相互作用。
因此,研究人员提出需要建立对“Avoid-ome”的系统化理解,即构建一套覆盖药物 ADMET 关键蛋白的结构与功能图谱。
“Avoid-ome”概念:药物研发中的“反靶点宇宙”
研究人员将 Avoid-ome 定义为一组决定药物吸收、代谢、毒性和分布行为的关键蛋白集合。这些蛋白包括:
这些蛋白共同决定药物是否能够成功到达目标组织,或者由于代谢过快、毒性过高或分布异常而失败。研究人员强调,这些蛋白既不是传统“靶点”,也不仅仅是“脱靶蛋白”,而是一类需要系统规避的“反靶点”。
研究进一步指出,虽然人体蛋白数量巨大,但真正高频影响 ADMET 的蛋白数量其实有限,大约只有 50–100 个核心蛋白。即使考虑低频情况,总体规模也不过数百个。这意味着 Avoid-ome 问题实际上是“可解”的,只要研究人员能够系统生成并共享高质量数据。

图1. Avoid-ome 的组成结构示意图,包括代谢酶、转运蛋白、核受体与毒性相关离子通道等关键反靶点分类。
靶点、脱靶与反靶点的区别
为了帮助理解 Avoid-ome,研究人员以 CDK2 激酶抑制剂为例进行了说明。
CDK2 是癌症治疗的重要靶点,而其他 CDK 家族成员则属于传统意义上的“脱靶蛋白”,因为它们与 CDK2 结构相似,容易产生选择性问题。然而 CYP3A4、PXR 与 hERG 等蛋白则属于“反靶点”。这些蛋白与疾病治疗本身无关,但它们会决定药物是否具有代谢风险、药物相互作用风险或心脏毒性。
研究人员指出,与靶点相比,反靶点具有更强的“多配体兼容性”。这些蛋白在进化过程中本身就被设计为识别大量外源化学物质,因此它们通常高度动态、结合模式复杂且具有显著的结构可塑性。这也导致传统机器学习模型极难对其进行准确预测。

图2. CDK2 靶点、CDK 家族脱靶蛋白以及 CYP3A4/hERG/PXR 等 Avoid-ome 反靶点之间的结构与功能差异示意图。
OpenADMET:建立开放式 ADMET 数据生态
研究人员随后介绍了 OpenADMET 计划。该项目由 UCSF、Octant 与 Open Molecular Software Foundation 联合发起,并获得 ARPA-H 与 Gates Foundation 支持。项目目标是建立开放、标准化、机制驱动的大规模 ADMET 数据资源。
研究人员认为,目前公开数据库中的 ADMET 数据高度碎片化,不同实验室之间实验条件差异极大,导致模型训练噪声巨大。即使制药公司内部拥有大量数据,这些数据往往也局限于局部化学空间,难以实现真正泛化。
因此 OpenADMET 不仅希望收集数据,更强调主动生成“最有信息量的数据”。研究人员利用主动学习策略,从大规模化学空间中优先选择最能提升模型性能的分子进行合成与测试。这样能够显著提升模型泛化能力,并系统发现“activity cliffs”等传统模型难以学习的现象。

图3. OpenADMET 的协同工作流程,包括高通量筛选、主动学习、结构生物学分析以及模型迭代优化。
高通量实验体系与主动学习驱动的SAR探索
为了支持大规模 Avoid-ome 建模,研究人员开发了一系列高通量实验平台,包括:
这些实验结合质谱与合成生物学技术,大幅降低了实验成本并提升了通量。例如,研究人员目前已经能够以低于 0.40 美元/化合物的成本完成 CYP 反应性检测,并每周筛选数万个化合物。
更重要的是,OpenADMET 将主动学习引入 SAR 优化过程。模型不仅预测活性,还评估“不确定性”,从而自动选择最有价值的实验对象。这种探索与利用平衡机制能够更高效地构建具有泛化能力的模型。
研究人员还强调,他们已经能够直接在粗反应液中完成生物测试,从而绕过传统药物化学中耗时的纯化步骤,大幅提升实验效率。

图4. OpenADMET 当前使用的高通量 ADMET 实验体系,包括 CYP 抑制、GPCR、核受体与微粒体稳定性检测平台。
结构生物学成为 Avoid-ome 建模核心
研究人员认为,未来的 ADMET 预测不能仅依赖二维分子表示,而必须引入真实蛋白-配体结构信息。
OpenADMET 正在通过 X-ray 与 cryo-EM 技术解析大量 Avoid-ome 蛋白复合物结构。例如研究人员已经获得超过 100 个 PXR-小分子复合物晶体结构。
这些结构不仅用于模型训练,更用于解释模型失败案例、activity cliffs 与异常预测结果。由于 Avoid-ome 蛋白通常高度动态且具有多结合模式,传统 AlphaFold 类方法往往难以正确预测结合状态,而实验结构则提供了真正的“ground truth”。
研究人员进一步指出,结构生物学还能够帮助研究人员:
因此,结构生物学不再只是“靶点验证工具”,而将成为未来 ADMET 建模的核心基础设施。

图5. OpenADMET 中化学合成、主动学习与结构生物学协同优化 Avoid-ome 模型的工作流程。
计算建模与开放社区挑战
研究人员同时开发了名为 ANVIL 的开源软件框架,用于标准化 ADMET 机器学习模型开发流程。
该平台支持不同分子表示、机器学习算法与评估协议之间的系统比较,并强调高质量数据与严格 benchmark 的重要性。此外,OpenADMET 将借鉴 CASP、CACHE 与 SAMPL 等社区挑战模式,建立“盲测挑战赛”。
在这些挑战中,研究人员会使用未公开实验数据测试模型性能,并公开排行榜,从而推动整个领域向更加透明、可复现的方向发展。研究人员认为,这种社区协作模式将成为推动 ADMET AI 模型真正突破的重要机制。
讨论
研究人员认为,未来十年药物研发最大的变化之一,将是从“后期规避 ADMET 问题”转向“早期主动设计 Avoid-ome 特性”。
传统药物研发往往先追求活性,再在后期处理毒性与代谢问题。但这种模式会导致大量项目在临床后期失败,造成极高成本浪费。OpenADMET 希望改变这一模式,将 ADMET 设计提前到 hit-to-lead 甚至更早阶段。
研究人员进一步提出了多个值得探索的重要问题。例如:
这些问题都需要大规模、标准化、机制驱动的数据体系支持。
最终,研究人员强调,Avoid-ome 并不是药物研发中的“障碍”,而是一个尚未被系统研究的重要生物学层级。未来药物设计最关键的突破,或许并不在于如何更强地结合靶点,而在于如何更聪明地“避开”人体中的这些反靶点。
整理 | DrugOne团队
参考资料
Fraser, J.S., Edgar, S., Handly, L.N. et al. Mapping the avoid-ome: a systematic open-science approach to predictive ADMET. Nat Commun 17, 4644 (2026).
https://doi.org/10.1038/s41467-026-73410-8