首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Chem. Sci. | DeepMetab:首个实现 CYP450 介导代谢端到端预测的图学习框架

Chem. Sci. | DeepMetab:首个实现 CYP450 介导代谢端到端预测的图学习框架

作者头像
DrugOne
发布2025-10-14 16:28:34
发布2025-10-14 16:28:34
90
举报
文章被收录于专栏:DrugOneDrugOne

DRUGAI

在药物研发领域,药物代谢预测始终是药代动力学研究的核心难题。一方面,酶促反应的机制复杂性让实验解析成本居高不下;另一方面,现有计算工具要么局限于单一预测任务,要么缺乏机制保真度与化学可解释性,难以满足临床前研究对代谢路径全面解析的需求。最近,中南大学药学院曹东升教授团队发表在《Chemical Science》上的一项研究提出了名为DeepMetab的深度图学习框架,首次实现了CYP450介导药物代谢的端到端预测,为解决这一痛点提供了突破性方案。

药物代谢预测的行业痛点:从实验困境到计算工具局限

药物代谢(即生物转化)是药物在体内被酶系统修饰的关键过程,其中肝脏中的细胞色素P450(CYP450)酶系承担了约75%的药物代谢任务,其介导的代谢产物不仅决定药物疗效,更可能引发肝毒性等严重不良反应——历史上约15%-30%的药物撤市案例与CYP450代谢产物相关,最典型的如1997年曲格列酮因CYP3A4介导的代谢产物引发肝衰竭而全球撤市。

传统实验方法虽能精准解析代谢路径,但需消耗大量时间与资源,仅单次代谢产物鉴定就可能耗时数周;而现有计算工具又存在明显短板:数据驱动型工具(如MetaPredictor)虽能实现端到端预测,但忽略代谢路径等关键中间信息,且代谢位点(SOM)预测TOP-1准确率仅57.8%,还常生成无意义文本;机制驱动型工具(如GLORYx、BioTransformer3.0)虽能解析代谢机制,却局限于单一任务——要么仅预测代谢酶(如CypReact),要么仅定位代谢位点(如SMARTCyp3.0),无法覆盖“底物识别-位点定位-产物生成”全流程,且多依赖随机森林等传统机器学习模型,未能充分挖掘分子特征的深层关联。

DeepMetab的核心创新:多任务整合与机制化设计

DeepMetab的核心突破在于构建了“机制知情”的统一框架,将底物谱分析、代谢位点定位、代谢产物生成三大核心任务整合,同时通过多尺度特征融合与精准标注策略,解决了现有工具的碎片化与低可解释性问题。

图1. 底物与代谢位点(SOM)数据集整理及代谢反应规则汇编工作流程。系统展示了底物数据集、SOM 数据集的构建流程,以及代谢反应规则的分类体系。在底物处理部分,图示了不同 CYP450 亚型对底物的代谢情况,并将每种分子的代谢酶信息编码为二进制向量;SOM 标注环节则通过原子级(AOM)与键级(BOM)双重标注,区分不同反应类型的代谢位点(如用 AOM 标注羟基化反应,用 BOM 标注脱烷基化反应),解决传统标注的歧义问题。反应规则部分以饼图呈现了四大类反应(氧化、还原、水解、脱卤)的分类及占比,且规则数量较现有工具 BioTransformer3.0 增加约 25%,整体流程确保了数据集的完整性与规则的机制一致性。

其技术架构的创新点集中在三方面:一是双标注策略,针对不同反应类型采用原子级(AOM)与键级(BOM)双重标注——如羟基化反应标注单个原子,脱烷基化反应标注化学键,有效避免反应类型误分类(例如区分N-脱烷基化与C-羟基化,解决了GLORYx的常见误差);二是多尺度特征融合,在图神经网络(GNN) backbone中融入量子化学描述符与拓扑描述符,既捕捉分子电子特性、空间构象等微观信息,又保留分子整体结构特征,较传统GNN模型提升了特征表征的全面性;三是专家知识库支撑,通过文献梳理构建了涵盖氧化、水解、还原、脱卤四大类15个子类的代谢反应规则库,规则数量较BioTransformer3.0增加25%,且通过最小最优标注原则减少多位点反应歧义,确保产物生成的机制一致性。

图2. 底物分布与 SOM 数据集特征综合分析。从两个维度解析数据集特征:A 部分聚焦 SOM 训练数据集,a1 子图展示了 CYP450 介导的各类代谢反应占比,a2 子图呈现不同 CYP 亚型在代谢过程中的相对重要性,a3 子图则细化了反应类型的具体分类及占比(如羟基化反应占比最高,约为一半);B 部分分析底物训练数据集,b1 子图对比了各 CYP 亚型的底物与非底物分子数量分布,揭示了数据集中的类别不平衡问题(如 CYP2A6、CYP2E1 的正负样本比不足 1:10),b2 子图通过饼图展示各 CYP 亚型的底物数量占比,其中 CYP3A4 占比 34%,凸显其在药物代谢中的核心地位。此外,配套的 UpSet 图还显示超半数分子可被多种酶代谢,为多任务学习策略提供了数据支撑。

在模型训练层面,DeepMetab采用多任务学习策略,针对9种主要CYP亚型(CYP1A2、CYP2A6等)共享特征表示与学习参数,同时通过损失加权策略解决数据不平衡问题——例如CYP2A6等“小众”亚型的正负样本比不足1:10,模型通过权重调整提升对稀缺样本的学习能力,最终实现各亚型预测性能的均衡提升。

图3. DeepMetab 工作流程。完整呈现了 DeepMetab 从输入到输出的全流程:输入模块将分子 SMILES 格式转换为包含多尺度特征的分子图;底物模块通过图神经网络(GNN)预测分子可被哪些 CYP450 亚型代谢;SOM 模块基于底物模块的预测结果,调用对应亚型的模型,通过 AOM 与 BOM 双模型定位具体代谢位点;规则模块匹配预构建的代谢反应规则库,根据代谢位点生成相应代谢产物;输出模块整合所有结果,系统输出预测的代谢酶、代谢位点、代谢产物及评分指标,形成端到端的代谢预测闭环,清晰展示了各模块间的协同作用。

性能验证:从数据集优势到临床药物验证

为确保模型可靠性,研究团队构建了目前领域内规模领先的数据集:底物数据集涵盖3800余个化合物,覆盖9种CYP亚型,其中阳性样本来自实验验证数据,阴性样本整合现有工具数据集与DrugBank数据库;代谢位点数据集包含874个底物的近1500个反应,较现有EBoMD数据集增加约1/3,且通过双标注策略确保数据准确性。

在性能评估中,DeepMetab展现出显著优势:在底物预测任务中,多任务模型较单任务模型在AUC、准确率(ACC)等指标上均有提升,且五折交叉验证的方差降低一个数量级,稳定性大幅增强;在代谢位点预测任务中,针对9种CYP亚型的TOP-2准确率均超现有工具,其中CYP1A2、CYP2D6、CYP3A4等主要亚型的AUC分别达0.92、0.93、0.94,即使数据稀缺的CYP2E1,多任务学习也使其AUC提升4%;在产物生成任务中,模型能精准匹配代谢位点与反应规则,生成的产物结构与实验结果高度一致。

DeepMetab 性能评估。通过多组对比实验验证模型性能:A 子图对比多任务与单任务模型在 SOM 预测中的五折交叉验证结果,橙色(多任务)较绿色(单任务)在 ACC、AUC、Jaccard 等指标上均有 2-3% 提升,且方差更低,PRC-A 指标提升约 5%,深色柱体(优化数据分割)进一步验证了数据均衡对性能的增益;B 子图通过不同蓝色深度展示逐步整合特征的效果,从仅含基础特征到加入原子级、分子级特征,模型性能逐步提升,证明多尺度特征融合的必要性;C 子图为 SOM 预测的 ROC 与 PRC 曲线,多任务模型曲线下面积(AUC)显著大于单任务模型;D 子图与 E 子图则对应底物预测任务,同样证明多任务模型在准确率与稳定性上的优势,其中 D 子图显示多任务模型方差较单任务降低一个数量级。

更关键的是临床验证环节:研究团队对18种2020-2024年FDA批准的新药(如莫博替尼、利特昔替尼)进行预测,结果显示其代谢位点TOP-2准确率达100%,14种药物的主要代谢产物(TOP-1)预测准确,且成功识别出CYP3A4、CYP2D6等主要代谢酶(预测分数0.81-1.00),甚至精准预测了CYP2C8介导的英格拉替尼代谢(分数0.74),部分未纳入训练集的实验验证产物也被准确捕获,充分证明其泛化能力。

2020-2024 年 FDA 批准口服药物的 DeepMetab 预测流程。展示了 DeepMetab 对 18 种近期 FDA 批准新药的代谢预测全流程:图示中明确标注了每种药物的预测代谢酶及对应评分(如 CYP3A4、CYP2D6 评分 0.81-1.00,CYP2C8 介导的英格拉替尼代谢评分 0.74),用浅色高亮标记预测的代谢位点,同时注明预测概率与所用代谢反应规则类型(如脱烷基化、羟基化)。结果显示,14 种药物的主要代谢产物(TOP-1)预测准确(准确率 78%),剩余 4 种(莫博替尼、利特昔替尼等)的正确产物为 TOP-2,整体 TOP-2 准确率 100%。该图不仅验证了模型对新结构药物的泛化能力,也为临床前代谢研究提供了清晰的预测结果呈现范式。

可解释性与临床价值:从特征可视化到药物研发应用

DeepMetab的另一重要价值在于高可解释性——通过t-SNE可视化隐藏层特征,研究发现模型能像专家一样识别分子关键特性:芳香族碳的邻对位原子因易发生酚羟基化而呈现高代谢活性,α-碳受相邻-SO₂基团影响会降低代谢活性,季氮原子因无氢原子而难以氧化,这些特征与实验观测完全一致,证明模型并非“黑箱”,而是能学习到符合化学原理的代谢规律。

在临床应用场景中,DeepMetab已展现出明确价值:例如预测胺碘酮的代谢路径时,模型准确识别CYP2C8/CYP3A4为介导酶,定位N-脱乙基位点并生成肝毒性代谢产物DEA(与Shohei等人的实验结果一致);预测可待因代谢时,不仅捕获CYP2D6介导的活性产物吗啡,还成功预测CYP3A4介导的无活性产物去甲可待因(未纳入训练集)。这些案例表明,DeepMetab能为药物安全性评估提供精准指导——早期识别毒性代谢产物,减少后期研发失败风险;同时为药物结构优化提供方向,例如通过修饰高风险代谢位点提升药物安全性。

未来展望与局限

尽管DeepMetab已实现显著突破,仍存在可拓展方向:一是数据集需进一步扩大化学空间覆盖,纳入更多罕见代谢反应类型,提升对结构新颖药物的预测能力;二是需整合II相代谢路径(如葡萄糖醛酸化),完善体内代谢全流程预测;三是未来可开发Web界面,降低使用门槛,推动计算工具在药企与科研机构的普及。

总体而言,DeepMetab通过“多任务整合-机制化设计-高可解释性”的创新路径,填补了药物代谢全流程预测的技术空白,其端到端预测能力与临床验证表现,为临床前药物代谢研究提供了高效工具,有望缩短药物研发周期,降低研发成本,推动药物代谢研究从“实验驱动”向“计算-实验协同”转型。

若要深入了解,可访问项目GitHub仓库(https://github.com/YilingZhou/DeepMetab)获取源代码与训练模型,或阅读原文(文章中还有非常丰富的实验图表这里没有展示)。

参考资料

论文:DeepMetab: a comprehensive and mechanistically informed graph learning framework for end-to-end drug metabolism prediction

链接: https://doi.org/10.1039/D5SC04631A 代码: https://github.com/YilingZhou/DeepMetab

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-09-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档