首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ActivityDiff:基于正负向活性引导的扩散模型在从头药物设计中的应用

ActivityDiff:基于正负向活性引导的扩散模型在从头药物设计中的应用

作者头像
用户1151118
发布2026-01-08 13:07:50
发布2026-01-08 13:07:50
300
举报

ActivityDiff: A diffusion model with Positive and Negative Activity Guidance for De Novo Drug Design

期刊: arXiv 链接: https://www.arxiv.org/abs/2508.06364 代码: https://github.com/e-yi/ActivityDiff 简介: 该论文提出 ActivityDiff,一种基于扩散模型分类器引导技术的生成方法,创新之处在于利用分别训练的药物 - 靶点分类器进行正负向引导,以增强分子的期望活性并最小化有害脱靶效应。其方法是采用离散去噪扩散模型,将分子视为完整图并转换为离散特征向量,在去噪过程中通过独立训练的分类器修改分子,适应不同药物设计需求。实验涵盖单 / 双靶点生成、片段约束双靶点设计等任务,使用 GEOM、BindingDB 等数据集,结果显示该模型在可用分子比例等方面表现优异,能有效生成符合预期活性特征的分子。该论文为分子活性的综合控制提供了新范式,是一个多功能且可扩展的从头药物设计框架。


在药物研发领域,如何精准控制分子的生物活性一直是个难题。既要让分子对目标靶点有激活或抑制作用,又要避免对其他靶点产生不良影响,还要考虑多靶点协同调节等情况,这些都是新药设计中亟待解决的关键问题。

现有的生成模型大多只关注单一期望活性的分子生成,缺乏同时处理多种预期和非预期分子相互作用的综合机制。而今天要为大家介绍中南大学李敏老师团队发表在预印本上的一项研究——《ActivityDiff: A diffusion model with Positive and Negative Activity Guidance for De Novo Drug Design》,提出了一种创新的生成方法,为解决这些问题带来了新的希望。

药物设计的挑战与现有方法的局限

药物的生物行为对其治疗效果和安全性起着至关重要的作用。合理的药物设计需要实现多个目标:最大化对靶标的疗效、最小化有毒的脱靶效应,在很多情况下还要优化与多个治疗靶点的相互作用。特别是在癌症、神经退行性疾病等复杂疾病的治疗中,调节多个与疾病相关的靶点往往能带来更好的治疗效果。

深度学习模型在药物-靶点相互作用预测和从头药物设计方面展现出巨大潜力,提高了研发效率并降低了成本。一些方法主要用于生成符合特定化学性质的分子,还有些生成方法在探索复杂的类药化学空间方面表现出巨大潜力,从而提高了发现具有治疗活性分子的效率。

但问题在于,这些生成方法通常局限于对活性的单向优化。比如Pocket2mol利用口袋结构作为条件生成与口袋结合的分子;KGDiff使用预测Vina分数的网络来指导生成过程,生成具有更好对接分数的分子;DeepDTAGen是一个多任务深度学习模型,用于同时预测药物-靶点结合亲和力和生成新的候选药物。这些方法都局限于单靶点药物设计,无法在多靶点约束下生成化合物。

也有一些方法试图解决多靶点药物设计的挑战。一种直接的策略是连接已知对不同靶点有活性的片段,如DeLinker、SyntaLinker等,但这种片段连接方法往往会产生分子量过大的分子。还有其他从头设计方法从不同角度解决多靶点药物设计问题,如AIxFuse学习药效团融合模式以满足分子对接模拟中的双靶点结构约束;POLYGON是一种基于生成强化学习的多药理学方法等,但它们在处理脱靶效应等方面仍存在不足。

此外,除了优化对预期靶点的活性外,抑制与其他靶点的非预期相互作用也至关重要,这能提高结合选择性,降低脱靶效应和下游毒性的风险。临床失败案例分析显示,30%的候选药物因安全问题被放弃,其中意外的脱靶相互作用是一个重要因素。比如CETP抑制剂torcetrapib在后期临床试验中因脱靶激活盐皮质激素受体,导致心血管事件增加而终止。这凸显了既提高靶点亲和力又明确抑制有害脱靶效应的方法的迫切需求。

ActivityDiff:创新的扩散模型框架

正是在这样的背景下,研究人员提出了ActivityDiff,这是一种基于扩散模型分类器引导技术的生成方法。它利用分别训练的药物-靶点分类器进行正向和负向引导,使模型能够增强期望的活性,同时最小化有害的脱靶效应。

ActivityDiff扩展了原始的分类器引导方法,引入了负向引导,在去噪过程中使用分别训练的分类器将中间结果推向目标属性。分类器引导允许生成和引导之间的部分解耦,加入新的条件不需要重新训练生成模型。在这项研究中,研究人员利用分类器引导进行类活性分子生成,不仅包括单一正向引导(如促进单靶点活性),还包括负向引导(如抑制脱靶效应)和复合多目标引导(如促进多靶点活性、促进选择性靶点活性等)。

从分子的表示来看,ActivityDiff将分子视为完整的图,其中每个边和节点都可以用独热向量表示,这样分子就被转换为一系列离散的特征向量。它使用离散去噪扩散模型更好地捕捉分子空间的离散性质,并实现对生成过程的精细控制。在去噪过程中,从随机采样的原子和键的组合(以独热特征向量为特征)开始,ActivityDiff逐步对它们进行去噪,在最后一步得到有效的分子。分别训练的分类器用于预测有噪声的输入分子是否具有某些性质,在每个去噪步骤中对分子进行修改。

ActivityDiff通过不同的引导设置来适应药物设计任务的各种需求,从而引导多目标的生成过程。它可以应用于单靶点分子生成、片段约束生成、多靶点生成、同源蛋白间的特异性增强以及在设计生物活性分子时避免脱靶效应等多种场景。

该图展示了 ActivityDiff 的整体结构与应用场景。a 为依赖关系图,表明分子属性由分子结构决定,分子结构可分解为特征向量集合,各特征向量独立 corruption 直至最终状态;b 将分子视为完整图,由节点和边的特征向量集合表示;c 展示去噪过程,从含噪分子开始,去噪网络生成中间分子,分类器计算梯度引导去噪;d 呈现不同药物设计任务的引导设置,包括单靶点、片段约束、多靶点等生成场景。
该图展示了 ActivityDiff 的整体结构与应用场景。a 为依赖关系图,表明分子属性由分子结构决定,分子结构可分解为特征向量集合,各特征向量独立 corruption 直至最终状态;b 将分子视为完整图,由节点和边的特征向量集合表示;c 展示去噪过程,从含噪分子开始,去噪网络生成中间分子,分类器计算梯度引导去噪;d 呈现不同药物设计任务的引导设置,包括单靶点、片段约束、多靶点等生成场景。

该图展示了 ActivityDiff 的整体结构与应用场景。a 为依赖关系图,表明分子属性由分子结构决定,分子结构可分解为特征向量集合,各特征向量独立 corruption 直至最终状态;b 将分子视为完整图,由节点和边的特征向量集合表示;c 展示去噪过程,从含噪分子开始,去噪网络生成中间分子,分类器计算梯度引导去噪;d 呈现不同药物设计任务的引导设置,包括单靶点、片段约束、多靶点等生成场景。

实验验证:ActivityDiff的出色表现

为了验证ActivityDiff的性能,研究人员进行了一系列实验。

该表对比 ActivityDiff 与其他模型在无条件生成中的性能,指标包括有效性、唯一性、新颖性和可用分子比例。结果显示 ActivityDiff 在可用分子比例上表现最佳,同时在新颖性、有效性和唯一性方面与 Syntalinker、REINVENT2.0 等顶级模型相当,表明其具有强大的新颖分子生成能力。
该表对比 ActivityDiff 与其他模型在无条件生成中的性能,指标包括有效性、唯一性、新颖性和可用分子比例。结果显示 ActivityDiff 在可用分子比例上表现最佳,同时在新颖性、有效性和唯一性方面与 Syntalinker、REINVENT2.0 等顶级模型相当,表明其具有强大的新颖分子生成能力。

该表对比 ActivityDiff 与其他模型在无条件生成中的性能,指标包括有效性、唯一性、新颖性和可用分子比例。结果显示 ActivityDiff 在可用分子比例上表现最佳,同时在新颖性、有效性和唯一性方面与 Syntalinker、REINVENT2.0 等顶级模型相当,表明其具有强大的新颖分子生成能力。

在无条件生成实验中,将ActivityDiff与已有的基线方法进行了基准测试,包括基于SMILES的方法和基于图的方法。结果显示,ActivityDiff在可用分子比例方面表现最佳,同时在新颖性、有效性和唯一性方面达到了与其他顶级模型相当的水平。这表明ActivityDiff具有强大的生成新颖分子的能力。

在分类器引导下的类活性分子生成实验中,评估了正负引导的效果。对于8个生物靶点,在两种引导模式下各生成10000个分子,并设立了三个对照组。结果显示,在正向引导下生成的分子中,预测活性值超过0.8的比例显著高于对照组。正向引导组在高活性区域(Y≥0.5)的样本比例达到78.8%±16.3%,而其他对照组的比例则低得多,这表明分类器引导的生成有效地将分子输出偏向期望的活性空间。

此表展示 ActivityDiff 生成分子与实验分子的对接性能,包括实验分子、生成的前 1000 个分子的平均对接分数及通过率(对接分数超过实验活性分子 95th 百分位阈值的比例)。结果显示生成分子中大部分在对接分数上处于活性分子范围,验证了生成分子与靶点结合的有效性。
此表展示 ActivityDiff 生成分子与实验分子的对接性能,包括实验分子、生成的前 1000 个分子的平均对接分数及通过率(对接分数超过实验活性分子 95th 百分位阈值的比例)。结果显示生成分子中大部分在对接分数上处于活性分子范围,验证了生成分子与靶点结合的有效性。

此表展示 ActivityDiff 生成分子与实验分子的对接性能,包括实验分子、生成的前 1000 个分子的平均对接分数及通过率(对接分数超过实验活性分子 95th 百分位阈值的比例)。结果显示生成分子中大部分在对接分数上处于活性分子范围,验证了生成分子与靶点结合的有效性。

同时,负向引导下生成的分子的平均预测分数为0.04±0.09,显著低于其他组,且80.4%的分子分类器分数低于0.1,这充分证明了ActivityDiff能够实现对分子生成的双向控制。

此图展示不同目标下生成分子基于训练分类器的预测分数。红色代表正向引导生成的分子,其高活性区域(预测值≥0.5)比例显著高于对照组;蓝色为负向引导,平均预测分数极低;绿色是无引导生成的分子;紫色和橙色分别为 BindingDB 和 GEOM 数据集的分子。结果验证了 ActivityDiff 能有效实现分子生成的双向控制,正向引导偏向期望活性空间,负向引导抑制活性。
此图展示不同目标下生成分子基于训练分类器的预测分数。红色代表正向引导生成的分子,其高活性区域(预测值≥0.5)比例显著高于对照组;蓝色为负向引导,平均预测分数极低;绿色是无引导生成的分子;紫色和橙色分别为 BindingDB 和 GEOM 数据集的分子。结果验证了 ActivityDiff 能有效实现分子生成的双向控制,正向引导偏向期望活性空间,负向引导抑制活性。

此图展示不同目标下生成分子基于训练分类器的预测分数。红色代表正向引导生成的分子,其高活性区域(预测值≥0.5)比例显著高于对照组;蓝色为负向引导,平均预测分数极低;绿色是无引导生成的分子;紫色和橙色分别为 BindingDB 和 GEOM 数据集的分子。结果验证了 ActivityDiff 能有效实现分子生成的双向控制,正向引导偏向期望活性空间,负向引导抑制活性。

尽管ActivityDiff是基于配体的,且研究人员意识到基于结构的对接结果和基于配体的预测之间存在差异,但他们还是进行了对接实验以进一步验证结果的可靠性。对于每个靶点,使用ActivityDiff在单一正向引导下生成10000个分子,并使用AutoDock Vina计算这些分子的对接分数。结果表明,为不同靶点生成的分子中,很大一部分在对接分数方面被确定为处于活性分子的范围内。

在双靶点化合物生成实验中,以黑色素瘤相关的NRAS和BRAF基因为例,训练了两个分类器来识别针对MEK和BRAF的活性和非活性分子,并用于ActivityDiff的生成过程。结果显示,在双靶点引导模式下生成的分子,其MEK和BRAF活性得分分布与相应的单靶点引导组相当,表明双引导系统有效地保留了对两个靶点的活性。结构分析也显示,分类器引导的分子与MEK结合口袋具有高度兼容性,并在BRAF结合位点形成良好对齐的相互作用,进一步证明了模型生成双靶点分子的能力。

该图呈现双靶点(MEK 和 BRAF)生成的相关结果。图 a 和 b 分别展示不同引导策略下分子的 MEK 和 BRAF 预测分数分布,双靶点引导模式下分子的活性分数与单靶点引导组相当,证明其能保留双靶点活性;图 c 和 d 分析生成分子与 MEK、BRAF 的结合情况,生成分子与结合口袋兼容性高,形成有效相互作用,对接分数与已知复合物相当,体现模型生成双靶点分子的能力。
该图呈现双靶点(MEK 和 BRAF)生成的相关结果。图 a 和 b 分别展示不同引导策略下分子的 MEK 和 BRAF 预测分数分布,双靶点引导模式下分子的活性分数与单靶点引导组相当,证明其能保留双靶点活性;图 c 和 d 分析生成分子与 MEK、BRAF 的结合情况,生成分子与结合口袋兼容性高,形成有效相互作用,对接分数与已知复合物相当,体现模型生成双靶点分子的能力。

该图呈现双靶点(MEK 和 BRAF)生成的相关结果。图 a 和 b 分别展示不同引导策略下分子的 MEK 和 BRAF 预测分数分布,双靶点引导模式下分子的活性分数与单靶点引导组相当,证明其能保留双靶点活性;图 c 和 d 分析生成分子与 MEK、BRAF 的结合情况,生成分子与结合口袋兼容性高,形成有效相互作用,对接分数与已知复合物相当,体现模型生成双靶点分子的能力。

此外,还评估了ActivityDiff在固定一个靶点的活性片段并引导生成另一个靶点的双靶点药物设计性能,生成的分子能够保留给定的片段,并且在另一个分类器上也获得了良好的预测分数。

此图展示固定一个靶点的活性片段并引导生成另一个靶点的双靶点分子结果。左面板为从 PDB 复合物结构提取的两个靶点结合位点,为每个靶点选取一个生物活性片段作为条件,同时引导生成另一个靶点的分子;右面板为生成的分子,这些分子能保留给定片段且在另一个分类器上有良好预测分数,验证了模型在片段约束下的双靶点设计能力。
此图展示固定一个靶点的活性片段并引导生成另一个靶点的双靶点分子结果。左面板为从 PDB 复合物结构提取的两个靶点结合位点,为每个靶点选取一个生物活性片段作为条件,同时引导生成另一个靶点的分子;右面板为生成的分子,这些分子能保留给定片段且在另一个分类器上有良好预测分数,验证了模型在片段约束下的双靶点设计能力。

此图展示固定一个靶点的活性片段并引导生成另一个靶点的双靶点分子结果。左面板为从 PDB 复合物结构提取的两个靶点结合位点,为每个靶点选取一个生物活性片段作为条件,同时引导生成另一个靶点的分子;右面板为生成的分子,这些分子能保留给定片段且在另一个分类器上有良好预测分数,验证了模型在片段约束下的双靶点设计能力。

在特异性抑制剂生成实验中,目标是生成对HER2具有高活性同时最小化与EGFR脱靶相互作用的分子。结果显示,使用HER2正向引导和EGFR负向引导的特异性引导方法后,EGFR预测分数超过0.5的分子比例从22.7%显著下降到6.4%,同时HER2分类器分数保持较高水平,表明ActivityDiff能有效提高目标特异性,同时保持高HER2活性。

该图展示 HER2 特异性抑制剂生成结果。图 a 为 HER2 引导生成分子的 HER2 和 EGFR 预测分数分布,部分分子存在 EGFR 双亲和力;图 b 为 HER2 正向与 EGFR 负向联合引导的分数分布,EGFR 高活性比例显著下降;图 c 展示代表性分子结构,其 HER2 预测分数高而 EGFR 低,证明模型能增强目标特异性并保持 HER2 活性。
该图展示 HER2 特异性抑制剂生成结果。图 a 为 HER2 引导生成分子的 HER2 和 EGFR 预测分数分布,部分分子存在 EGFR 双亲和力;图 b 为 HER2 正向与 EGFR 负向联合引导的分数分布,EGFR 高活性比例显著下降;图 c 展示代表性分子结构,其 HER2 预测分数高而 EGFR 低,证明模型能增强目标特异性并保持 HER2 活性。

该图展示 HER2 特异性抑制剂生成结果。图 a 为 HER2 引导生成分子的 HER2 和 EGFR 预测分数分布,部分分子存在 EGFR 双亲和力;图 b 为 HER2 正向与 EGFR 负向联合引导的分数分布,EGFR 高活性比例显著下降;图 c 展示代表性分子结构,其 HER2 预测分数高而 EGFR 低,证明模型能增强目标特异性并保持 HER2 活性。

在减少广谱脱靶效应实验中,基于BioPrint数据集选择了6个靶点构成简化的脱靶谱,训练了一个联合分类器。生成实验旨在产生目标选择性分子,同时不与脱靶面板中的靶点结合。结果显示,在脱靶面板分类器引导下生成的分子,其脱靶比例低于实验活性分子,在测试的靶点中,ActivityDiff生成的化合物预测的脱靶 liability比例始终低于实验分子。

此图展示脱靶效应控制结果。图 6a 为 ActivityDiff 生成分子(红色)与实验活性分子(蓝色)在脱靶谱面板的预测分数分布,生成分子脱靶比例更低;图 6b 为两者在脱靶面板分类器中的表现,生成分子预测的脱靶风险比例均低于实验分子,“改进” 栏显示 ActivityDiff 降低脱靶风险的程度,验证其减少广谱脱靶效应的有效性。
此图展示脱靶效应控制结果。图 6a 为 ActivityDiff 生成分子(红色)与实验活性分子(蓝色)在脱靶谱面板的预测分数分布,生成分子脱靶比例更低;图 6b 为两者在脱靶面板分类器中的表现,生成分子预测的脱靶风险比例均低于实验分子,“改进” 栏显示 ActivityDiff 降低脱靶风险的程度,验证其减少广谱脱靶效应的有效性。

此图展示脱靶效应控制结果。图 6a 为 ActivityDiff 生成分子(红色)与实验活性分子(蓝色)在脱靶谱面板的预测分数分布,生成分子脱靶比例更低;图 6b 为两者在脱靶面板分类器中的表现,生成分子预测的脱靶风险比例均低于实验分子,“改进” 栏显示 ActivityDiff 降低脱靶风险的程度,验证其减少广谱脱靶效应的有效性。

总结与展望

ActivityDiff基于离散扩散模型,结合分类器引导,设计用于抑制脱靶风险、增强选择性并支持多靶点生成。分别训练的分类器降低了在新场景中使用该方法的成本,正向引导改善期望性质,负向引导减少不期望的脱靶效应,且这种简单的正负分类器引导并不影响其有效性和灵活性。

从案例研究来看,ActivityDiff的潜在应用涵盖多种场景。在单靶点应用中,它可以引导生成活性或非活性化合物,确保靶向优化;在多靶点药物设计中,整合多个分类器有助于设计对不同靶点有活性的化合物;通过纳入非期望靶点分类器的负向引导,还能提高选择性,减少脱靶效应和毒性;此外,利用片段可以设计多靶点活性分子,为平衡活性和选择性的复杂分子设计提供了精细有效的策略。

当然,该研究也存在一些挑战。如何平衡多个靶点的亲和力还需要进一步研究;更有效地利用非活性化合物数据,以及改进药物代谢和毒性的预测,对于提高模型的可靠性至关重要。当药物进入体内后,会面临复杂的生物环境,涉及药物-药物相互作用、代谢转化以及代谢物的潜在毒性等。将药物设计纳入系统级生物网络,考虑药物-蛋白质、蛋白质-蛋白质和药物-药物相互作用,是未来研究和模型改进的一个有前景的方向。

总的来说,ActivityDiff引入了一种实现分子活性综合控制的新范式,为从头药物设计提供了一个多功能且可扩展的框架,有望在复杂药理学约束下为合理的药物发现提供有力支持。


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-08-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MindDance 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • ActivityDiff: A diffusion model with Positive and Negative Activity Guidance for De Novo Drug Design
  • 药物设计的挑战与现有方法的局限
  • ActivityDiff:创新的扩散模型框架
  • 实验验证:ActivityDiff的出色表现
  • 总结与展望
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档