前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >J. Cheminform.| Mol-CycleGAN:基于Graph的分子生成优化模型

J. Cheminform.| Mol-CycleGAN:基于Graph的分子生成优化模型

作者头像
DrugAI
修改2021-02-01 16:12:28
6560
修改2021-02-01 16:12:28
举报
文章被收录于专栏:DrugAI

今天给大家介绍的是雅盖隆大学数学与计算机科学学院的学生Łukasz Maziarka和Agnieszka Pocha于2020年1月8日发表在Journal of Cheminformatics的一篇论文,他们受现Adobe公司研究学者朱俊彦在2017年提出的无关联图像生成模型CyCleGAN启发,提出了一种新的基于Graph的分子图生成优化模型——Mol-CycleGAN,该模型可生成与原始化合物具有高度结构相似性的优化化合物,并且Mol-CycleGAN是基于CycleGAN架构进行分子生成的第一种方法。

1

背景

药物设计的主要目标之一是找到能够以所需方式调节给定靶标(通常是蛋白质),所以在设计分子时需要针对许多复杂特性优化化合物,使得在药物发展中设计具有所需特性的分子具有一定挑战性。相对于传统的实验方法,计算机辅助设计使得分子设计更为便捷,目前有两种方法,一种是通过判别模型筛选数据库的虚拟筛选技术,一种是用生成模型做分子的从头设计。而分子生成模型主要分为基于SMILES的和基于Graph的,两者都各有优点,其中所使用的深度学习框架包括了VAE,GAN,RNN等。

为了解决难以合成化合物的问题,作者提出了Mol-CycleGAN, 给定一种起始分子,它会产生结构相似的分子并且具有所需的特性。此外,由于结合了基于Graph表示形式的JT-VAE模型而不是SMILES,所以该模型始终生成有效的化合物。

2

方法

Mol-CycleGAN: 首先将分子分为两个集合X和Y, 对于X、Y的要求是分别不具有和具有某种所需分子特性,例如X中的分子无活性,Y中的分子有活性,训练模型完成从X到Y的转换G,从而进行分子优化。为了表示集合X和Y,该方法需要分子嵌入是可逆的,即既可以编码又可以解码分子,所以采用JT-VAE模型的潜在空间,将每个分子视为潜在空间中的一个点。在分子映射上,如同CycleGAN,设计两个生成器G、F和两个判别器,其中生成器G: X → Y,F: Y → X;在损失函数上,为了保证生成的分子与原始分子相似,比CycleGAN多了一个特性映射损失,具体公式如下:

进行分子优化的主要思想是1)从集合X中选取分子x,要求不具有特定特征(例如特定数目的芳香环,水溶性,活性等),并计算其潜在空间的embedding,2)使用生成神经网络G获得分子G(x)的embedding,要求具有此特定特征并且和原始分子相似,3)解码由G(x)给出的潜在空间坐标,以获得优化的分子。

3

任务

作者在三个方面评估提出的模型是否能够生成具有所需特性并接近起始分子的分子,即影响化合物整体特性的辛醇-水分配系数(logP),合成可达性得分(SA)和对DRD2受体的活性影响。logP使用在JT-VAE模型中的惩罚公式,即对于分子m而言,惩罚logP表示为logP(m)-SA(m),训练数据从ZINC数据集上提取,而DRD2任务使用随机森林分类算法在ECFP分子指纹上训练,活性数据从CHEMBL数据集获取。整个任务大体上分为两类,一类与结构特性相关,一类与理化特性相关。

(1)任务一:结构转换

测试分子简单结构转换的能力,因此选择在某些结构方面有所不同的X和Y,继而测试模型是否可以学习转化规则并将其应用于模型未使用的分子。主要训练以下任务,(i)卤素,将数据集分为两个子集X和Y。集合Y的分子至少包含以下SMATRS中的一个:'[!#1] Cl','[!#1] F','[!#1] I','C#N',而集合X不包含这些。在该实验中选择的SMARTS指示卤素部分和腈基。它们在分子中的存在和位置会对化合物的活性产生巨大影响。(ii)生物电子等排体,X中的分子是有“CN”而没有“CF3”基团,Y由有“CF3”没有“CN”基团的分子组成,该任务测试模型是否可以学习在任何位置生成基团。(iii)芳香环,X中的分子正好具有两个芳香环,而Y中的分子具有一个或三个芳香环。

(2)任务二:约束分子优化

优化惩罚logP,同时约束与起始分子的偏离程度。分子之间的相似性是用Morgan Fingerprints上的Tanimoto相似性来衡量的。X和Y集ZINC-250K的随机样本,其中化合物的惩罚logP值分别低于中位数和高于中位数。

(3)任务三:不受约束的分子优化

对惩罚logP执行不受约束的优化。X是来自ZINC-250K的随机样本,Y是来自ZINC-250K中具有最高logP的前20%分子的随机样本。

(4)任务四:DRD2受体的活性影响

使用Mol-CycleGAN从非活性分子中创建活性分子,其中DRD2(多巴胺受体D2)被选作生物学靶标。具有注释活性的化合物从ChEMBL25中提取目标。将数据集分为两个子集,即活性(Y)和无活性(X)。集合Y由

的分子组成,而所有剩余的分子都划分给集合X。

具体任务的数据集划分如下表1,2所示:

1

4 实验

根据上述四个子任务进行相关实验,

(1)结构转换实验

在下表中,显示了分子结构转换任务的成功率。改变芳香环的数量比改变卤素部分的存在更加困难。

为了确认生成的分子与起始分子接近,作者在下图中生成了ZINC-250K数据集中起始分子与随机分子之间的Tanimoto相似性分布。

在更为复杂的生物电子等排体替换实验中,表4,5是作者定量总结了生物电子等排体代换的结果。所有产生的分子保持高度多样性,并且逆向优化(用CN取代CF3)是一项更容易的任务,可能是CF3片段包含更多原子,因此其解码过程更加复杂。

(2)受约束分子优化

在优化类药分子的惩罚logP任务中,该模型在性能平均改善方面明显优于以前的结果(请参见表6)。在受约束的情况下(对于δ> 0),它获得了可比的平均相似度。对于δ= 0,0.2,成功率是可比的,不过对于更严格的约束条件(δ= 0.4,0.6),模型的成功率较低。

(3)无约束优化

不受约束的分子优化的结果如下图所示。在图a,c中,可以观察到连续的迭代使目标的分布(惩罚的logP)不断向更高的值移动。但是,进一步迭代的改进正在减少。令人惊讶的是,分布的最大值不断增加(尽管以某种随机的方式)。经过10–20次迭代后,从非类姚分子观察到的logP值非常高,与RL获得的相似。

(4)活性实验

下表8显示,基于生物活性模型的预测,Mol-CycleGAN能够显着提高所选非活性药物的活性。

下图显示了优化化合物与起始分子的相似性,并比较了它们的预测活性。为验证实验结果,作者对许多生成的化合物进行了对接程序,发现平均而言,优化后的化合物比其祖先具有更好的对接能。

5

总结

Mol-CycleGAN-一种基于CycleGAN的新模型,可用于从头生成分子。该模型可以生成具有所需特性的分子并接近起始分子,并且可以通过超参数控制相似度。在未来的工作中,作者计划使用StarGAN将方法扩展到分子的多参数优化。在小的结构变化导致难以建模的特性(例如,活性悬崖)急剧变化的情况下测试模型也受人关注。

代码

https://github.com/ardigen/mol-cycle-gan

参考资料

Maziarka, Ł., Pocha, A., Kaczmarczyk, J. et al. Mol-CycleGAN: a generative model for molecular optimization. J Cheminform 12, 2 (2020).

https://doi.org/10.1186/s13321-019-0404-1

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-07-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档