前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >J. Med. Chem. | 生物属性中对分子生成模型进行基准测试

J. Med. Chem. | 生物属性中对分子生成模型进行基准测试

作者头像
DrugAI
发布2024-04-28 10:54:27
920
发布2024-04-28 10:54:27
举报
文章被收录于专栏:DrugAIDrugAI

今天为大家介绍的是来自Liwei Liu,Tingjun Hou和Yu Kang团队的一篇论文。基于深度学习的分子生成模型因其生成具有新颖结构和理想理化属性的分子的能力而受到越来越多的关注。然而,这些模型的评估,特别是在生物学背景下的评估,仍然不足。为了解决现有度量标准的局限性并模拟实际应用场景,作者构建了RediscMol基准测试,它包括从5个激酶和3个GPCR数据集中提取的活性分子。作者引入了一组重新发现和相似性相关的度量标准,以评估8个代表性的生成模型的性能。基于RediscMol基准测试的发现与之前的评估结果不同。CharRNN、VAE和Reinvent在重现已知活性分子方面表现出更强的能力,而RNNAttn、TransVAE和GraphAF尽管在常用的分布学习度量标准上表现突出,但在这方面存在困难。作者的评估框架可能为在现实世界药物设计场景中推进生成模型提供宝贵的指导。

制药领域,发现有效分子长期以来一直是一个挑战。虚拟筛选(VS)是一种计算技术,用于在现有的分子库中搜索潜在的活性化合物。然而,与估计的药物化学空间大小(从10^23到10^60)相比,这些现有化合物的化学空间极其有限。最近,生成模型被提出用于从头开始生成具有理想属性特征的新颖分子,这些模型被期望能更智能地探索广阔的化学空间,而不仅仅依赖于筛选现有库。自2016年首次应用自编码器以来,各种基于机器学习(ML)的生成模型被开发并用于新颖药物设计。许多鼓舞人心的结果已经有力地展示了这些方法的潜力。研究人员已证明,基于序列的递归神经网络(RNN)、变分自编码器(VAE)、强化学习(RL)和生成对抗网络(GAN)等多种ML框架和模型在产生有前途的先导化合物方面是有效的。最近,基于流程和扩散的模型在分子生成方面展示了显著的性能。

尽管开发了多种分子生成模型,评估它们的性能仍然是一个巨大的挑战。通常,有两个主要的度量标准用于模型评估:分布学习和目标导向度量。在分布学习度量中,有效性、独特性和新颖性是评估生成模型性能的三个主要指标。然而,这些度量与生成分子的生物活性无关。例如AddCarbon模型仅通过SMILES表示中随机插入一个碳原子,就在这三个度量中取得了相当好的表现。此外,这个模型还欺骗了其他分布学习度量,如Kullback-Leibler(KL)散度和Frechet Chemnet距离(FCD)。因此,当前的分布学习度量在提供生成模型是否真正能产生实际用途分子方面的见解上不足。尽管有这个局限性,评估这些模型的两个最广泛使用的基准测试,即MOSES和GuacaMol,仍然依赖于这些度量。在目标导向度量中,通常通过定量结构-活性关系(QSAR)模型和评分函数来评估生成分子的质量。然而,准确预测分子的生物特性是困难的。受模型架构和训练集的限制,实际中使用的大多数模型都包含特定的偏差。以在DUD-E数据集上训练的卷积神经网络(CNN)模型为例,这些模型的出色表现归因于学习数据集中的类似物和诱饵偏差,而不是蛋白质-配体相互作用的特征。

在GuacaMol中,重新发现和相似性度量被用来描述生成分子与一组包括上市药物的目标分子之间的相似性。重新发现度量表明,如果一个模型可以重现具有实验验证的生物活性的目标分子,则可以认为它能够生成活性分子。然而,这个基准测试受到目标分子数量非常有限这个问题所影响。此外,在实际场景中,通常会使用特定于目标蛋白的活性分子对预先训练的生成模型进行微调,这表明迫切需要一个更好地模拟实际应用场景的基准测试。在该研究中,考虑到计算模型的准确性和GuacaMol中目标导向度量的局限性,作者构建了一个由5个激酶和3个G蛋白偶联受体(GPCR)数据集中的活性分子组成的RediscMol基准测试,用于预先训练模型的微调和评估。此外,与GuacaMol中常见的分布学习度量、计算分数和目标导向度量不同,作者提出并采用了重新发现和相似性相关度量来评估8种生成模型的性能,这些度量考虑了模型的通用性和目标分子的活性。在排除了与RediscMol相似的分子后,在ChEMBL数据集上预先训练的模型被微调在RediscMol中与相同通用Murcko骨架的10%分子上。然后RediscMol中剩余的分子被用作重新发现的目标数据集。此外,为了评估这些生成模型对新目标的性能,模型被微调在RediscMol中与相同通用Murcko骨架的1%化合物上,这通常包含大约100种化合物。

工作流程

图 1

表 1

性能评估的工作流程展示在图1中,包括数据集预处理、预训练、微调和评估。从ChEMBL数据库中移除了与RediscMol数据集中任何分子的ECFP4相似度高于0.333的分子,剩余的分子用作预训练数据集。值得注意的是,作者在激酶和GPCR数据集的情况下,开发了两个不同的预训练数据集。用于微调的RediscMol数据集包括5个激酶(EGFR、CDK、JakA、VEGFR和PDGFR)和3个GPCR(AR、5-HTR和DR)数据集。包括CharRNN、VAE、AAE、RNNAttn、TransVAE、Reinvent、ORGAN和GraphAF在内的八种生成模型在预处理后的ChEMBL数据集上进行了预训练。预训练结果总结在表1中。每个模型生成的30,000个化合物被用于性能评估。对于RNNAttn和TransVAE,使用了三种采样模式,包括随机、高熵和k随机高熵。在这些模型中,GraphAF在有效性度量方面表现最佳,RNNAttn在独特性和新颖性度量方面取得最佳结果,这与它们文章中的结果一致。此外,这些模型生成的分子具有合理的分子属性,如log P、SA、QED和MW。总体而言,所有生成模型都学会了生成有效、独特和新颖的分子。随后,模型在具有相同通用Murcko骨架的10%微调数据集上进行了微调,这增加了训练集和目标分子之间的结构差异,并提高了重现目标分子的难度。每个模型生成了30,000个分子用于后续评估。由于有效性、独特性和新颖性与重现的目标分子数量相关,因此使用RDKit过滤分子以保持这三个度量的值在所有生成模型中为1。然后,采用重新发现和相似性相关度量进行性能评估。考虑到新目标活性分子数量有限,作者还为每个目标蛋白构建了1%微调数据集,通常包含大约100种化合物。同样,使用RDKit进行分子过滤,并采用重新发现和相似性相关度量来评估生成模型的性能。

10%微调数据集

表 2

表 3

图 2

在10%微调数据集上的评估表明,由于其他数据集的微调结果与CDK所获得的结果一致,因此选择CDK作为代表来展示结果。在CDK 10%微调数据集上的微调结果显示在表2中。GraphAF在有效性度量中表现最佳,RNNAttn在独特性度量中表最佳。与预训练模型相比,经过微调的CharRNN、VAE、AAE、Reinvent和ORGAN在独特性度量中的表现显著下降。对于重新发现相关度量,CharRNN的表现显著优于其他模型,在十个10%微调数据集中平均重现了87.5个目标分子。尽管RNNAttn、TransVAE和GraphAF在有效性、独特性和新颖性度量中表现出色,但在重现目标分子方面表现不佳。根据SNN/Gen_train和SNN/Gen_goal度量,GraphAF、RNNAttn和TransVAE生成的分子与训练和目标数据集的相似性有限,这引发了对这些模型是否有效捕获CDK 10%微调数据集中活性分子的化学空间信息的担忧。考虑到有效性、独特性和新颖性度量对重现目标分子数量的影响,作者使用RDKit过滤生成的分子。在RDKit过滤后的CDK 10%微调数据集上的微调结果显示在图2、表3中。CharRNN、VAE、AAE、Reinvent和ORGAN重现的目标分子数量显著增加。此外,Reinvent重现的分子比CharRNN和大多数A类和B类分子更多。

为了进一步评估生成模型的泛化能力,作者构建了Rediscovery_0.7_number度量,代表与训练数据集中最近邻分子相似度小于0.7的重现目标分子数量。Reinvent也在Rediscovery_0.7_number度量中表现最佳;CharRNN和VAE的表现略低于Reinvent,其次是AAE和ORGAN。同样地,GraphAF、RNNAttn和TransVAE在重现目标分子方面表现不佳。根据相似性相关的度量,VAE生成了与目标数据集最相似的分子,相似度大于0.7的分子数量达到3126个。考虑到生成分子与训练数据集之间的相似性,Reinvent在Sim_0.7_train_0.7_number度量中的表现略优于VAE。GraphAF、RNNAttn和TransVAE在生成与目标数据集相似的分子方面存在困难。

在相似性相关度量方面,VAE生成了最多与目标数据集相似的分子,相似度大于0.7的分子数量达到3126个。考虑到生成分子与训练数据集之间的相似性,Reinvent在Sim_0.7_train_0.7_number度量中的表现略优于VAE。GraphAF、RNNAttn和TransVAE在生成与目标数据集相似的分子方面存在困难。在10%微调数据集上,不同的生成模型表现出不同的性能特点。在相似性相关的度量方面,VAE通常能生成更多与目标数据集相似的分子,而Reinvent在某些相似性度量中也表现出色。CharRNN在某些情况下也表现良好,尤其是在重新发现和泛化能力方面。GraphAF、RNNAttn和TransVAE在这些任务中表现较差,特别是在重现目标分子方面。

1%微调数据集

图 3

表 4

考虑到新目标活性分子数量有限,研究者还构建了1%微调数据集,以评估生成模型在这些目标上的性能。由于RNNAttn、TransVAE和GraphAF在10%微调数据集中表现不佳,因此它们没有被包括在此评估中。在CDK 1%微调数据集上经RDKit过滤的微调结果显示在图3、表4中。其中,VAE的表现显著优于其他模型,重现了40.4个目标分子,其中4.8个为B类分子。在泛化能力方面,VAE也表现最佳,重现了16.9个目标分子。此外,VAE能生成明显多于其他模型的与目标数据集相似的分子。VAE在重新发现和相似性相关度量方面优于其他模型。总结来说,当只用少量活性分子进行微调时,VAE的表现最佳。

编译 | 曾全晨

审稿 | 王建民

参考资料

Weng, G., Zhao, H., Nie, D., Zhang, H., Liu, L., Hou, T., & Kang, Y. (2024). RediscMol: Benchmarking Molecular Generation Models in Biological Properties. Journal of Medicinal Chemistry.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-04-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档