前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >无回归器引导的药物反应预测方法

无回归器引导的药物反应预测方法

作者头像
DrugAI
发布2024-07-19 13:06:56
510
发布2024-07-19 13:06:56
举报
文章被收录于专栏:DrugAI

DRUGAI

今天为大家介绍的是来自武汉大学胡文斌团队的一篇论文。药物反应预测(DRP)是药物发现中的一个关键阶段,其评估的最重要指标是IC50分数。DRP的结果在很大程度上取决于生成分子的质量。现有的分子生成方法通常采用基于分类器的指导,允许在IC50分类范围内进行采样。然而,这些方法无法确保采样空间范围的有效性,导致生成了大量无效分子。通过实验和理论研究,作者假设基于目标IC50分数的条件生成可以获得更有效的采样空间。因此,作者引入了无回归器指导的分子生成方法,以确保在更有效的空间内进行采样,支持DRP。无回归器指导结合了扩散模型的分数估计与基于数值标签的回归控制模型的梯度。为了有效映射药物和细胞系之间的回归标签,作者设计了一个常识数值知识图谱以限制文本表示顺序。对DRP任务的真实世界数据集的实验结果表明,该方法在药物发现中是有效的。代码可在以下网址获得:https://anonymous.4open.science/r/RMCD-DBD1。

药物反应预测在药物发现中至关重要。它通过评估药物在细胞系中的反应,帮助筛选潜在的药理活性化合物。然而,药物发现的挑战在于化学分子的搜索空间巨大且离散。具体而言,药物类化合物的可能结构规模从1023到1060不等,但其中具有治疗意义的仅占很小的百分比(约108)。传统的药物发现技术通常涉及筛选大量分子库,结果是找到具有足够疗效的分子的概率很低。

此外,分子的质量直接影响药物筛选的效率和DRP任务的进展。通常,高质量的分子表现出增强的药理学特性,更有可能成为有效的药物候选者。因此,生成高质量的分子已成为当前药物发现研究的核心问题。随着人工智能技术的发展,各种分子生成方法相继提出,包括基于序列的生成模型,变分自编码器,归一化流,以及扩散模型。现有的分子生成方法可以生成具有特定稳定性和新颖性的分子,为药物发现提供更大的虚拟筛选分子库。

图 1

为了满足基于DRP的筛选任务的需求,基于扩散的条件生成方法因其能够在保持结果多样性和新颖性的同时生成特定分子而备受关注。如图1所示,传统的扩散模型可以在某些条件下生成分子,这些条件大多是基于分类器的。然而,药物的特性大多是连续且可量化的。分类器引导的采样空间范围相对较大,限制了其执行精确分子特性空间采样的能力。相比之下,基于回归器条件引导的扩散模型可以在靠近特定响应值的较小范围内进行采样。这确保了生成的分子与目标响应值一致,而不是落在更广泛的响应范围内。为了在更有效的空间内进行采样,为了避免潜在的基于梯度的对抗攻击,作者从无分类器引导中获取灵感,选择了无回归器引导方法。

模型部分

图 2

作者的方法主要包括两个模型:用于引导条件生成的回归控制器模型和用于分数估计的DBControl模型。方法框架如图2所示,在扩散阶段,DBControl模型用于噪声预测。首先,使用QM9和ZINC250k等分子数据集训练DBControl。然后,在GDSCv2数据集上训练回归控制器模型,以完成DRP任务(即无条件分子数据集中约占1‰的分子数目)。最后,在GDSCv2和无条件分子数据集的混合数据集上训练DBControl模型。

回归控制器模型将分子与细胞系的响应值(如IC50分数)的自然语言描述作为文本输入,并使用分子和细胞系的常规表示(例如序列和基序编码)作为常规输入。然后,使用模板生成自然语言描述,如下所示:

在特定任务中的分子分布多样性有限,可能导致在小分子数据集上训练的噪声预测网络性能不佳。为了确保网络适应新任务中的分子和条件分布,同时记住先验知识,作者提出了双分支控制噪声预测模型(称为DBControl模型)。DBControl模型由两个结构一致的GNN组成(即两个网络分别表示为B1和B2)。B1参与无条件分子训练,而B2不参与。在条件混合训练阶段,B2从B1获取权重以编码条件特征。值得注意的是,B1和B2的权重必须同时优化,而不是简单地冻结B1。

无回归器引导下的DBControl模型的联合训练算法如下所示:

使用无回归器引导进行条件采样的算法如下所示:

实验结果

实验设置

作者选择了用于DRP任务的GDSCv2作为条件分子数据集,并选择了QM9作为无条件数据集。评估指标包括Fréchet ChemNet距离(FCD)和邻域子图成对距离内核最大平均差异(NSPDK MMD)。

整体实验结果

表 1

表 2

作者评估了模型生成的分子是否能够准确预测回归标签并在特定条件下生成分子。然后,作者将该方法与代表性的分子生成方法进行了比较。表1和表2展示了作者的方法与主流分子生成模型在FCD和MMD指标上的性能对比。结果表明,作者的方法在所有指标和细胞系任务中都表现出色。具体而言,FCD和MMD分别比最好的模型高出2.68%和2.23%。

图 3

此外,数值不能直观地展示作者方法的优越性。因此,作者选择了四种主流方法,并为目标对(NCI-H187,IC50=0.35)生成了一组数据进行可视化比较。如图3所示,作者的方法生成的分子主要集中在条件采样附近,而其他方法生成的分子显著偏离目标值。

变更无回归器引导强度

图 4

在条件分子生成任务中,不同的条件参数会影响采样结果。为了研究这一点,作者进行了无回归器引导强度实验,针对细胞系ES3下生成IC50为0.4的分子应用作者提出的无回归器引导方法。图4展示了作者模型在不同引导强度ω下的样本质量效果。

随着条件引导强度的增加,分子生成过程逐渐向目标分子特征值靠拢,但在ω ≈ 1时达到第一个极值点。随后,生成性能在1 < ω < 3之间变差,并在ω ≈ 5时改善,达到第二个极值点。此外,随着K的增加,目标分子数量和目标IC50分数范围扩大,而FCD和MMD指标下降。因此,较小的K表示更严格的条件生成任务。作者通过实验验证了本文的主要假设:无回归器引导可以引导生成模型生成方向性条件分子,并且在引导强度ω为1和5时存在两个最小引导强度点。

消融实验

作者进行了消融实验,以验证该方法在混合数据训练、无条件预训练和部分权重冻结方面的有效性。

混合数据训练 指的是将一个小的条件数据集和一个大的无条件数据集结合起来进行联合训练。这种方法有效地减少了生成分子与目标分子之间的FCD和MMD,并且在不进行后期修正的情况下提高了分子的有效性。

无条件预训练 是指在数据集(如QM9或ZINC250k)上训练无条件生成模型,同时训练条件模型。在保持条件不变的情况下,使用在QM9上训练的无条件模型显著提高了分子生成质量。

权重冻结 指的是作者提出的DBControl模型由两个分支(即B1和B2)组成。首先,B1在无条件训练中进行训练,然后与B2在条件混合训练阶段一起进行微调。在条件混合训练阶段,与其他方法不同,作者设置B1的权重不冻结。不同的数据集发挥不同的作用,简单地冻结预训练分支B1的权重可能会妨碍有效的数据分布学习。此外,药物分子的特性与图像的特性不同,虽然分子特性可能相似,但它们的属性不一定相同。因此,权重冻结会阻碍大数据集和针对特定任务的小数据集之间特征分布传递的通道。

表 3

通过消融实验,验证了混合数据训练、无条件预训练和部分权重冻结对于提高分子生成质量和有效性的重要性。如表3所示,综合使用这些技术可以显著提升生成模型的性能。

结论

本文提出了一种无回归器引导的分子生成模型,以确保在更有效的空间内进行采样,从而支持药物反应预测任务。无回归器引导方法结合了DBControl模型的分数估计和基于数值标签的回归控制模型的梯度。回归控制模型将目标IC50和细胞系转换为受常识数值知识图谱(CN-KG)约束的文本,有效地映射药物和细胞系之间的响应值。此外,为了提高噪声预测性能,作者引入了DBControl模型进行分数估计。在DRP任务的真实世界数据集上的实验结果表明,该方法在从头药物设计中是有效的,为药物发现提供了一种新颖且高效的解决方案。

编译 | 于洲

审稿 | 曾全晨

参考资料

Li K, Gong X, Pan S, et al. Regressor-free Molecule Generation to Support Drug Response Prediction[J]. arXiv preprint arXiv:2405.14536, 2024.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
灰盒安全测试
腾讯知识图谱(Tencent Knowledge Graph,TKG)是一个集成图数据库、图计算引擎和图可视化分析的一站式平台。支持抽取和融合异构数据,支持千亿级节点关系的存储和计算,支持规则匹配、机器学习、图嵌入等图数据挖掘算法,拥有丰富的图数据渲染和展现的可视化方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档