DRUGONE
酶是生命的分子机器,其功能核心在于底物特异性——即识别并选择性作用于特定底物的能力。这种特异性来源于酶活性位点的三维结构与复杂的过渡态构象。然而,数百万已知酶仍缺乏可靠的底物特异性信息,严重限制了其在生物催化与药物设计中的应用。
研究人员开发了一种名为 EZSpecificity 的交叉注意力(cross-attention)增强型 SE(3)-等变图神经网络(GNN),可基于序列与结构层面的信息预测酶底物特异性。该模型在研究人员自建的高质量数据库 ESIbank 上训练,该库整合了序列、结构及酶-底物复合物信息。与现有模型相比,EZSpecificity 在未知底物与未知酶的预测中均表现更优。在八种卤化酶与 78 个底物的实验验证中,EZSpecificity 准确识别单一潜在反应底物的精度达到 91.7%,显著高于当前最优模型 ESP(58.3%)。这一框架为理解酶功能与应用于生物催化、合成生物学及药物发现提供了通用解决方案。
近年来,多种机器学习工具被用于酶底物特异性预测,但大多仅针对特定家族且效果有限。现有模型如 CLEAN、ProteInfer、DeepECTransformer 等虽可预测功能,却难以区分同一 EC 编号下的不同反应或底物特异性,这是生物催化领域的核心挑战。
传统的复合物预测模型(如 ESP、CPI 等)主要基于分子指纹或序列嵌入,但未能充分捕捉催化残基身份、空间构型与长程耦合效应等关键因素。研究人员指出,如何将序列、结构与相互作用信息全面整合,是提升预测精度的关键。
为此,研究人员构建了 ESIbank 数据库,涵盖天然与非天然底物、突变体酶及其复合物结构,并基于此开发了 EZSpecificity 模型。该模型通过结构感知的图神经网络与交叉注意力机制,直接建模酶-底物的原子级相互作用,从而显著增强了预测的可解释性与泛化能力。
方法概述
EZSpecificity 框架由三大核心部分组成:
结果
模型架构与性能
现有模型多依赖一维序列与二维分子图,忽略了底物结合的三维本质。EZSpecificity 整合序列信息、复合物结构与活性口袋环境,利用 SE(3)-等变图网络保持三维旋转与平移不变性,并通过交叉注意力层识别关键的酶–底物相互作用区域。
模型训练后,EZSpecificity 在四种评估场景中均超越 ESP 模型,特别是在最具挑战的“双未知”(未知酶与未知底物)情形下表现显著提升。其 AUROC 值比 ESP 提高约 7%,AUPR 提升约 9%,表明其预测更加稳健。
消融实验进一步表明:去除结构信息或交叉注意力层都会降低模型性能,说明三维表示与交互机制对捕获底物特异性至关重要。
图 1 | EZSpecificity 框架
ESIbank 数据库的构建
为训练模型,研究人员建立了涵盖 32 万余条记录的 ESIbank(Enzyme–Substrate Interaction Bank)。该数据库融合序列、结构及反应信息,是迄今规模最大、分辨率最高的酶–底物复合物资源。
其特点包括:
所有复合物通过 AutoDock-GPU 高速对接生成,确保活性位点精确匹配,为模型提供了真实的空间约束。
图 2 | 综合酶–底物互作数据库(ESIbank)的构建流程
基准评估与消融分析
EZSpecificity 在所有测试集上均明显优于 ESP 与 CPI 模型。在随机划分数据上,AUROC 提高至 0.88(ESP 仅 0.65),AUPR 提升近三倍。
模型消融分析显示,交叉注意力层可增强模型聚焦于特异性决定性原子或残基的能力,从而减少背景噪声影响。
此外,EZSpecificity 在不同 EC 编号层级下均保持较高的分辨率,能够区分同一家族或突变体之间的底物差异,展现了强大的泛化与细粒度识别能力。
图 3 | EZSpecificity 在 ESIbank 数据集上的评估结果
跨酶家族的泛化与微调
研究人员进一步在六个典型酶家族(如水解酶、糖基转移酶、硫解酶等)中测试模型泛化性。EZSpecificity 在未知底物与未知酶场景下依旧保持高性能(平均 AUPR 达 0.68)。
两种微调策略被评估:
这些结果说明 EZSpecificity 在数据量有限时仍具鲁棒性,且适用于特定家族的特异性建模。
EZSpecificity 在六个代表性酶家族中的计算机模拟评估
卤化酶实验验证
为了验证模型预测的真实性,研究人员选取 8 种黄素依赖卤化酶及 78 种底物进行体外实验。
在未经微调的条件下,EZSpecificity 的 AUROC 值在 0.77–0.94 之间,AUPR 为 0.54–0.85;经微调后进一步提升至 0.80–0.96 与 0.57–0.88。
在 12 种新底物测试中,EZSpecificity 的 Top-1 准确率达 91.7%,显著高于 EZSpecificity-w/oGCS(41.7%)和 ESP(58.3%)。其集成模型在 Top-5 范围内的总体准确率维持在 62–85% 之间,证明结构与交叉注意力机制显著提升了真实场景下的预测精度。
图 5 | 卤化酶实验验证
应用案例
EZSpecificity 可用于:
为目标酶筛选最可能反应的底物;
为目标底物识别最可能催化的酶。
在大肠杆菌代谢网络(34 种代谢物、860 种酶)的测试中,EZSpecificity 在前 5% 排名中正确识别率达 29.4%,优于传统对接打分(20.4%)。模型在低序列相似性条件下仍保持较高准确率,展示了对未知序列的泛化能力。
此外,在克拉维酸与阿尔博诺霉素等生物合成基因簇的验证中,EZSpecificity 能正确识别 67% 的目标酶-中间体匹配,显示其在天然产物研究与合成路径重建中的潜力。
图 6 | 模型应用
讨论
研究人员提出的 EZSpecificity 框架通过结合三维结构感知编码与交叉注意力机制,实现了对酶-底物特异性预测的系统突破。相比以往方法,EZSpecificity 不仅能处理大规模异质数据,还能直接捕捉原子层面的相互作用,从而提供可解释的预测依据。
实验结果显示,其在 in silico 测试中 AUROC 提高近 48%,在体外验证中精度达 91.7%,大幅超越现有模型。
未来,研究人员计划将 EZSpecificity 扩展至:
EZSpecificity 不仅是一个预测工具,更是生物催化、酶工程与药物发现的通用智能平台,有望推动酶功能解析与定向设计的新时代。
整理 | DrugOne团队
参考资料
Cui, H., Su, Y., Dean, T.J. et al. Enzyme specificity prediction using cross attention graph neural networks. Nature (2025).
https://doi.org/10.1038/s41586-025-09697-2
内容为【DrugOne】公众号原创|转载请注明来源