前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >J. Med. Chem. | FFLOM:一种基于流的从片段到先导化合物优化的自回归模型

J. Med. Chem. | FFLOM:一种基于流的从片段到先导化合物优化的自回归模型

作者头像
DrugAI
发布2023-09-19 14:46:54
3510
发布2023-09-19 14:46:54
举报
文章被收录于专栏:DrugAI

今天给大家介绍浙江大学药学院侯廷军教授和康玉副教授团队、齐鲁制药合作在Journal of Medicinal Chemistry发表的一篇论文“FFLOM: A Flow-Based Autoregressive Model for Fragment-to-Lead Optimization”。该文提出了一种新的基于流(flow)的自回归模型FFLOM,可用于先导化合物优化任务中小分子的连接子(linker)和R基团设计,使用者可自定义待修改片段和生成长度,在保留优势区域及其构象的前提下对局部片段进行改进。在ZINC、CASF和PDBbind等多个测试集上的评估显示,FFLOM生成的分子在有效性、唯一性、新颖性和重现率指标上均表现良好;在片段连接、PROTAC设计、R基团生长和R基团优化四个实际应用案例中,不仅能够复现实验验证的基线分子,且能生成大量结合亲和力打分更优的新颖结构。

研究背景

基于片段的药物设计(fragment-based drug design, FBDD)方法使用片段作为分子生成或逐步优化的起始点,在发现候选先导物上有着巨大潜力。片段生长和片段连接是将片段转化成先导物的两个主要的FBDD技术:前者保留化合物的主要骨架不变,仅调整其微小侧链,而后者生成linker来连接两个给定的分子片段,能够在保持两端结合构象不变的前提下提高分子的配体效率。但目前能显示指定修改片段范围与长度且同时覆盖片段生长和片段连接两种生成方法的模型较少。

对此,作者提出了基于流的先导物优化模型FFLOM来实现化学空间到标准正态分布的可逆映射,在保留分子的大部分结构不变的前提下对linker或R基团进行改变,并通过连续杂原子或小于五元环的不饱和环出现限制等一系列后处理手段来确保生成分子的化学结构合理性。FFLOM通过构建节点流和边流来分别控制原子和键的采样,以配体的原子表征独热编码和邻接矩阵作为输入,在仅提供配体信息的情况下就可以在多种现实案例上进行应用。模型的整体的框架和四种应用场景示例见图1所示。实验数据表明,FFLOM不仅在四种场景中都能复现出案例原分子,且能生成大量新颖的结构片段,并获得比原始分子更好的对接打分。

图1. (a)FFLOM模型的整体框架。分子使用原子的独热编码和邻接矩阵作为表征,基于流的模型G由(b)12层节点流和边流组成,每个节点流或边流是一个(c)耦合层。(d)到(g)图展示了FFLOM的四种应用场景,即片段连接、PROTAC设计、R基团生长和R基团优化。

模型框架

自回归流模型旨在学习基础分布(如高斯分布)到现实世界数据分布(如分子)的可逆映射,现实世界数据空间的密度函数可通过变量替换公式(change-of-variables formula)来建模,并在耦合层中设计仿射变换(公式4和公式5),通过相乘系数项来高效计算雅各比行列式(Jacobian determinant):

FFLOM使用原子的独热编码和邻接矩阵来表征分子(图1a)。流模型由若干节点流和边流(图1b)组成,而节点流和边流又由耦合层(图1c)组成。在每个耦合层中,节点嵌入和边嵌入首先通过图卷积网络和多层感知机转化成st,并用于AX的计算(公式4和公式5)。给定一组训练数据,损失函数可通过最大化公式3来高效计算。FFLOM的生成过程为一个顺序决策过程,在每个生成步骤引入化合价检查以保证生成分子结构的有效性。如图2所示,在linker设计任务中,

时刻子图的初始化状态为两个给定的片段,新原子的潜在节点在

时刻从14维的标准正态分布中进行采样和逆运算,每一维代表一种原子类型。在

时刻,新节点和已有节点之间的键根据目前子图和化合价规则通过一个迭代过程进行确定。所有节点和边生成完毕后,迭代过程即在

时刻终止。R基团设计任务的生成过程与上述基本一致,除了初始状态时仅有一个片段。

图2. linker设计任务中一个新分子的生成过程。

模型评价

在linker设计任务中,作者在四个测试集上进行了基准测试,即ZINC、CASF-2016(标准)、linker在5个重原子及以上的CASF-2016(记为CASF(≥5))和linker在5个重原子及以上的PDBbind(记为PDBbind(≥5)),并在7种常用的二维指标上与其他多个类似模型进行了比较。

如表1所示,在有效性、唯一性、新颖性和重现率方面,FFLOM在四个测试集上的表现均优于其他对比模型。但作者进一步检查了FFLOM生成的分子,发现其中一部分在结构上存在不合理之处,如长链中出现连续的杂原子等,因此唯一性和新颖性可能存在一定的虚高。作者在生成过程中(记为FFLOM_con)和生成结束后(记为FFLOM_filt)分别引入了过滤规则,限制链中出现连续的杂原子或小于五元环的不饱和环,唯一性和新颖性分数因此出现明显的下降,但仍显著高于其他对比模型。在成药性指标方面,FFLOM_filt的SA得分略低于DeLinker,与DiffLinker和DEVELOP相当;在QED分数上,FFLOM_filt的得分超过其他模型;而在plogP值上,FFLOM_filt在ZINC数据集、CASF(≥5)、PDBbind(≥5)上得分最高,在CASF(标准)上得分第二。随着多个分子性质的引入,FFLOM在SA值上表现略有下降,且在可接受的范围内。

另外,作者在CASF(≥5)、PDBbind(≥5)测试集上进行了R基团设计任务的基准测试,并与DeLinker和DEVELOP两个模型进行了比较。如表2所示,所有模型均达到了99%以上的有效率,片段生长的过程所受化合价的限制较连接两段片段的过程少。在唯一性和新颖性指标上,增加了限制的FFLOM模型在PDBbind测试集上仍优于其它模型,在CASF测试集上则位列第二。FFLOM在R基团设计任务重现率上的表现优于DeLinker和DEVELOP模型,甚至高于FFLOM在linker设计任务上的表现,这可能是由于R基团设计任务中分子的长度明显短于linker设计任务(最长分子的原子数为41vs89)。FFLOM在SA和plogP上的表现略逊于DEVELOP,QED值则略优。此外,DeLinker原文献中未见片段生长相关代码,其在三个类药性指标上的表现没能有定量的评估与比较。

案例研究——片段连接

作者以设计IMPDH抑制剂为例评估了FFLOM的片段连接能力。Trapero等人通过筛选包含960个片段的化合物库发现了一系列低亲和力的苯并咪唑(phenylimidazole)衍生物并选定了其中两个,连接这两个片段后设计的新化合物在活性上实现了1300倍的提升1。本文作者同样以这两个片段作为起点,共生成10000个linker,其指标表现如表3所示。FFLOM不仅成功复现出了Trapero等人通过实验验证的分子,还使用SA分数、环芳香性、PAINS过滤器和SC分数筛选出了930个分子,并使用MOE软件对接到结合蛋白上(PDB ID: 5OU3),其中808个分子获得了超越基线分子的对接分数(-9.08kcal/mol)。生成分子的对接打分分布图及三个代表分子构象示例如图3所示。

图3. 片段连接案例结果。(a)Trapero等人提出的基线分子的二维结构。(b)生成分子的对接分数分布,红线表示基线分子的对接分数。(c)到(e)为三个生成分子的二维结构及与基线分子的对接构象叠合图。高亮部分表示生成的linker,黄色构象表示基线分子,蓝色构象表示生成分子。

案例研究——PROTAC设计

作者以BRD4靶点为例探究了FFLOM在PROTAC设计案例中的应用。考虑到PROTAC分子比常规小分子长很多(平均重原子个数为67.6),作者在ZINC数据集上训练后再在PROTAC数据集上进行了迁移学习。作者从Gadd等人设计的BRD4的PROTAC降解剂(degrader)MZ12出发共生成5000个PROTAC分子,达到了99.66%新颖性和40.92%唯一性。FFLOM同样复现出了实验所得的基线分子,但由于更大的分子体积和更复杂的结构,能够通过二维和三维过滤器的分子数量大大降低。FFLOM共生成了54个SC分数达到0.5的分子,并将其进行对接。尽管MZ1已达到非常好的对接分数(-15.49kcal/mol),FFLOM仍获得了显著超越该对接分数的新分子(-17.13kcal/mol),并通过分子对接获得了其与已知的结合构象高度重叠的优势构象。

案例研究——R基团生长

Bianchini等人3为TRPM8靶点设计了潜在的拮抗剂,他们选定了两个TRPM8拮抗剂作为先导化合物,并使用生物等位替代等策略设计出了两个有更好生物学性能的N-烷氧基酰胺(N-alkoxy amide)衍生物,分别记为化合物51和化合物59。以该类化合物核心片段作为起始,FFLOM成功复现出了化合物51和化合物59,并生成了85.61%的新颖的R基团。经SA分数、环芳香性、PAINS过滤器和SC分数过滤后分别获得283(基于化合物51)和419 (基于化合物59)个不同分子,将其对接到TRPM8的活性口袋中(PDB ID:6NR2, D链),其中101个分子的对接分数超过化合物51,201个分子的对接分数超过化合物59。针对化合物51所生成的分子的对接分数分布图及3个示例构象如图4所示,生成构象与基线分子的叠合十分紧密。

图4. 片段生长案例结果。(a)Bianchini等人提出的基线分子化合物51的二维结构。(b)生成分子的对接分数分布,红线表示基线分子的对接分数。(c)到(e)为三个生成分子的二维结构及与基线分子的对接构象叠合图。高亮部分表示生成的R基团,黄色构象表示基线分子,蓝色构象表示生成分子。

案例研究——R基团优化

近期发现激酶B-Raf的抑制剂Dabrafenib可能会潜在地激活人类核受体孕烷X受体(pregnane X receptor, PXR),导致化学物质或药物的意外清除,为此,Schneider等人设计了化合物4c:一种几乎不与PXR结合的选择性激酶B-Raf单一突变体(V600E)抑制剂4。在前几个案例研究中,生成的linker或R基团的长度默认与基线分子一致,然而为了更好地贴近实际药物优化场景,本案例中作者假设R基团的长度未知,在4到6之间每种R基团长度设定下都生成5000个分子。FFLOM成功复现了化合物4c,并将所有通过二维过滤器的527个分子与B-Raf-V600E(PDB ID: 7P3V)进行了对接,与基线分子(对接分数-11.85kcal/mol)相比,155个分子获得更优打分。

为进一步探究文献中提及的B-Raf/PXR选择性抑制剂设计,作者又将前述527个分子与PXR进行对接(PDB ID: 6HJ2),其中38个分子展现出了潜在的选择性(图5)。需要注意的是,仅靠单一工具对接打分结果不一定能够获得分子的实际活性,但该结果一定程度上展示了FFLOM在R基团优化实际场景中的潜在应用。

图5. 527个分子对B-Raf-V600E和PXR的对接分数分布。红线表示化合物4c对B-Raf-V600E靶点的对接分数,蓝线表示Dabrafenib对PXR的对接分数,绿线表示化合物4c对PXR的对接分数。放大区域表示有潜在选择性的分子,其中6个示例中的高亮部分表示生成的R基团。

总结

作者提出了一种新颖的基于流的自回归模型FFLOM,该模型提供灵活的linker和R基团生成方法(使用者可自定义片段的范围和长度),在多种片段到先导物的优化场景中均可应用。实验结果显示,在分子结构和多项成药性指标合理前提下,该模型生成分子在有效性、唯一性、新颖性和重现率上的表现超过其他模型。片段连接、PROTAC设计、R基团生长和R基团优化的案例显示,FFLOM均能够重现出已知基线分子,并能够高效生成对接分数优于基线分子的新结构。

参考资料

  • Trapero, A.; Pacitto, A.; Singh, V.; Sabbah, M.; Coyne, A. G.; Mizrahi, V.; Blundell, T. L.; Ascher, D. B.; Abell, C., Fragment-Based Approach to Targeting Inosine-5'-monophosphate Dehydrogenase (IMPDH) from Mycobacterium tuberculosis. Journal of Medicinal Chemistry 2018, 61, 2806–2822.
  • Gadd, M. S.; Testa, A.; Lucas, X.; Chan, K. H.; Chen, W.; Lamont, D. J.; Zengerle, M.; Ciulli, A., Structural basis of PROTAC cooperative recognition for selective protein degradation. Nature Chemical Biology 2017, 13, 514-521.
  • Bianchini, G.; Tomassetti, M.; Lillini, S.; Sirico, A.; Bovolenta, S.; Za, L.; Liberati, C.; Novelli, R.; Aramini, A., Discovery of Novel TRPM8 Blockers Suitable for the Treatment of Somatic and Ocular Painful Conditions: A Journey through pKa and LogD Modulation. Journal of Medicinal Chemistry 2021, 64, 16820-16837.
  • Schneider, M.; Delfosse, V.; Gelin, M.; Grimaldi, M.; Granell, M.; Heriaud, L.; Pons, J. L.; Cohen, G. M.; Balaguer, P.; Bourguet, W.; Labesse, G., Structure-Based and Knowledge-Informed Design of B-Raf Inhibitors Devoid of Deleterious PXR Binding. Journal of Medicinal Chemistry 2022, 65, 1552-1566.
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-06 00:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档