准确的药物-靶点亲和力(DTA)预测在AI药物发现领域具有重要潜力。然而,现有的方法主要在单一尺度上进行操作,即针对靶点蛋白在宏观尺度(残基尺度)和针对药物在微观尺度(原子尺度),这限制了它们在靶点微观尺度(原子尺度)和药物宏观尺度(官能团,FG)提供信息的能力。这种局限性阻碍了对药物-靶点对结合模式和特性的全面理解。
江南大学团队发表于AAAI-25的研究论文《M²N:A Progressive Macro-to-Micro 3D Modeling Scheme for Unveiling Drug-Target Affinity》,提出了一种渐进式宏观到微观(跨尺度建模)3D建模框架,实现了药物与靶点从宏观到微观的统一表征,为DTA预测提供了全新的技术范式。本文将从技术原理、创新突破、实验验证及领域影响四个维度,深度解析这一里程碑式研究。
一、领域瓶颈:单尺度建模的固有局限与跨尺度需求 从分子作用机制来看,DTA的本质是药物与靶点在多尺度上的协同作用:
药物官能团 (FG)作为原子的集合体,决定了分子的化学反应特性与靶点结合倾向性,其空间排布直接影响药物活性与药代动力学性质;蛋白质的原子级精细结构 (如活性位点的原子构型、化学键取向)是实现特异性结合的关键,仅依赖残基尺度无法捕捉此类高分辨率信息;宏观尺度 (残基/官能团)的整体构象与微观尺度(原子)的局部相互作用形成层级依赖关系,单一尺度建模必然导致信息丢失。因此,构建能够贯通宏观与微观的跨尺度建模框架,成为突破DTA预测精度瓶颈的核心方向。
二、技术解析:M²N模型的跨尺度建模架构与核心创新 M²N(Macro-to-Micro 3D Modeling Network)的核心设计理念是宏观粗粒度表征→微观细粒度精炼→自适应特征融合 ,通过三大功能模块(宏到微药物建模模块 (M2D )、宏到微靶点建模模块 (M2T )以及自适应融合模块 (AFM ))实现药物与靶点的全尺度信息挖掘(图1)。
2.1 药物跨尺度建模模块(M²D):官能团→原子的渐进式表征 M²D模块创新性地构建了"官能团图-原子图"的两级建模流程,实现药物特征的层级精炼:
宏观官能团图构建与学习 :基于SMARTS模式识别药物分子中的官能团(FG),以FG为节点、空间欧氏距离为边构建3D官能团图(G_DFG)。通过DFG-GTformer(图Transformer变体)学习FG间的空间关系与反应活性特征,核心是引入带边特征的多头注意力机制,通过将边特征(空间距离编码)融入注意力计算,实现FG间相互作用的精准建模;微观原子图构建与知识迁移 :以原子为节点、化学键为边构建3D原子图(G_DA),每个原子节点的特征融合三类信息——原子固有属性(元素类型、氢键供体/受体、芳香性等)、3D空间坐标、对应FG的宏观特征(通过concat操作实现跨尺度知识迁移);原子级特征精炼 :采用DAtom-GTformer处理原子图,通过门控残差连接避免过平滑,捕捉原子间的共价键、非共价键相互作用,生成细粒度药物原子嵌入。2.2 靶蛋白跨尺度建模模块(M²T):残基→原子的多维度信息整合 M²T模块借鉴蛋白质多尺度建模的最新进展,实现从残基到原子的全维度特征提取:
宏观残基图构建与特征融合 :以氨基酸残基为节点,基于残基骨架中心坐标的空间邻近性构建3D残基图(G_T-Res),每个残基节点整合三类核心特征——序列特征(氨基酸one-hot编码)、进化特征(ESM蛋白语言模型嵌入,捕捉2.5亿条序列的进化保守性)、空间特征(残基骨架中心3D坐标);通过TRes-GTformer学习残基间的空间协作与序列依赖关系,生成残基尺度粗粒度嵌入;微观原子图构建与几何特征编码 :构建3D原子图(G_T-Atom),节点特征包含残基尺度迁移特征与原子几何特征——通过计算φ、ψ、ω二面角的正余弦值编码局部构象,边特征通过局部坐标系转换捕捉原子间的距离、方向与取向差异,实现原子级空间关系的精准表征;原子级特征精炼 :利用TAtom-GTformer挖掘原子间的复杂相互作用,通过多层图Transformer实现特征迭代精炼,生成蛋白质原子级细粒度嵌入。2.3 自适应融合模块(AFM):多尺度特征的动态整合与优化 AFM模块的核心是解决跨尺度、跨模态特征的协同融合问题,避免简单拼接导致的信息冗余:
双阶段自适应加权 :首先对药物(官能团+原子)和蛋白质(残基+原子)的跨尺度特征分别进行权重分配,通过Softmax生成动态权重矩阵,突出对DTA预测关键的特征维度;再对融合后的药物-靶点特征进行二次加权,捕捉两者间的特异性相互作用模式;多任务训练优化 :设计主任务(全尺度特征DTA预测)与辅助任务(宏观/微观尺度单独预测)的联合训练目标,通过λ₁(0.1)和λ₂(0.2)平衡不同尺度的贡献,利用多任务监督提升模型泛化能力;端到端学习机制 :从特征提取到亲和力预测全程端到端训练,确保跨尺度信息在传递过程中不丢失,实现特征优化与预测任务的协同。2.4 核心创新点总结 实现药物-靶点的3D跨尺度统一建模 :突破传统单尺度局限,构建"残基/官能团→原子"的层级建模框架,贯通宏观与微观信息;官能团级药物建模的创新性应用 :将官能团作为药物建模的核心中间层,还原药物作用的化学本质,填补现有方法在药物宏观活性特征建模上的空白;原子级几何特征的精细化编码 :通过二面角、局部坐标系转换等方式,实现蛋白质原子级空间关系的精准表征,超越传统基于结构方法的拓扑结构建模;自适应融合机制的高效性 :双阶段加权与多任务训练相结合,实现跨尺度特征的动态优化,提升模型对复杂相互作用模式的捕捉能力。三、实验验证:多场景下的性能优势与 ablation 分析 研究团队在DAVIS和KIBA两大权威数据集上进行了全面验证,通过三类挑战性场景(S1:未见过的靶点;S2:未见过的药物;S3:均未见过的药物-靶点对)评估模型泛化能力,核心实验结果如下:
3.1 基准模型对比 DAVIS数据集 :S1场景下M²N的MSE=0.316(低于最优基线HiSIFDTA的0.359),PCC=0.639(提升3.1%),CI=0.816(提升1.3%);S3场景(最严苛)下PCC提升8.7%,MSE降低5.6%,展现出较强的未知样本预测能力 ;KIBA数据集 :S1场景下CI=0.742(高于MSFDTA的0.735),S2场景下MSE=0.421(低于HiSIFDTA的0.415),1场景下最优,综合三类场景,M²N的平均性能最优 ;关键发现 :基于结构方法整体优于基于序列方法,验证了3D结构信息的重要性;而M²N通过跨尺度建模,进一步突破了传统基于结构方法的单尺度局限,实现性能跃升。3.2 Ablation分析:核心组件的必要性验证 通过构建6类模型变体(表5),验证各组件的贡献:
跨尺度建模的必要性 :移除药物官能团特征(w/o DFG)或原子特征(w/o DAtom)后,M²N在DAVIS的MSE分别上升8.2%和10.1%;移除蛋白质残基特征(w/o TRes)或原子特征(w/o TAtom)后,PCC分别下降3.6%和4.8%,证明宏观与微观尺度信息的互补性 ;自适应融合模块的关键作用 :替换AFM为直接拼接后(w/o AFM),KIBA数据集的CI下降0.7%,表明动态加权能有效提升特征融合效率 ;渐进式建模的价值 :移除药物渐进式建模(w/o PDM)或蛋白质渐进式建模(w/o PTM)后,模型性能均显著下降,验证"宏观→微观"的层级特征迁移是实现精准表征的关键。3.3 超参数敏感性分析:模型鲁棒性验证 平衡系数λ₁/λ₂ :当λ₁=0.1、λ₂=0.2时模型性能最优,λ₂>λ₁表明原子级微观信息对DTA预测的贡献更大;过大的λ值会导致模型过度关注辅助任务,性能下降;邻域节点数k₁/k₂ :G_DFG的k₁=5、G_T-Res的k₂=25时最优,过小的k导致邻域信息不足,过大的k引发过平滑,证明模型对超参数具有良好的鲁棒性。四、局限性与未来方向 计算复杂度优化 :原子图的构建与图Transformer计算导致模型训练成本较高,未来可通过稀疏图采样、特征蒸馏等方式提升效率;动态构象适应性 :当前模型基于静态3D结构,未考虑药物与靶点结合过程中的构象变化,未来可整合分子动力学模拟数据,构建动态跨尺度模型;多靶点、多药物组合预测 :现有模型聚焦一对一DTA预测,未来可扩展至多靶点药物设计、药物组合筛选等更复杂场景;实验验证落地 :需通过湿实验验证模型预测的高亲和力药物-靶点对,建立"计算预测-实验验证"的闭环,推动技术转化。五、总结 M²N模型通过创新性的跨尺度3D建模框架,突破了传统DTA预测方法的单尺度局限,实现了药物(官能团→原子)与靶蛋白(残基→原子)的全维度信息挖掘。其核心优势在于:以生物学与化学机制为基础,构建层级化的特征表征体系;通过自适应融合模块实现跨尺度信息的高效协同;在多类挑战性场景下展现出超越SOTA方法的预测精度与泛化能力。
参考文献:Lv T, Zhu J, Liu J, et al. M²N: A Progressive Macro-to-Micro 3D Modeling Scheme for Unveiling Drug-Target Affinity[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2025, 39(1): 586-594.