前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >JCIM丨像素卷积神经网络引导的化学空间探索用于基于片段的从头药物发现

JCIM丨像素卷积神经网络引导的化学空间探索用于基于片段的从头药物发现

作者头像
智药邦
发布2023-02-28 15:24:05
6070
发布2023-02-28 15:24:05
举报
文章被收录于专栏:智药邦

2022年12月1日,来自日本东京大学的学者在Journal of Chemical Information and Modeling上发表论文“Exploration of Chemical Space Guided by PixelCNN for Fragment-Based De Novo Drug Discovery”。论文中,作者提出了像素卷积神经网络PixelCNN,将SMILES字符串转换为2维矩阵数据,应用掩蔽神经网络层建立模型。作者对PixelCNN的性能进行了多方面的分析,并将其与RNN在生成期望性质的分子方面和基于片段生长优化的化学空间探索方面进行了详尽的比较。

尽管RNN在直接预测与目标分子性质相对应的分子结构方面优于PixelCNN,但基于PixelCNN的框架在分子结构的片段生长优化方面明显优于RNN方法,可以很好地应用于基于片段的药物发现任务。

1 摘要

作者提出了像素卷积神经网络 (pixel convolutional neural network, PixelCNN),其将SMILES作为分子表示,可用于基于片段的分子设计。广泛使用的循环神经网络(recurrent neural network, RNN)假设字符串中的相关性单调衰减,PixelCNN能捕捉到SMILES字符之间的周期性。因此,PixelCNN通过提取隐藏在SMILES中的分子结构的周期性,为分析化学空间提供了一种新的解决方案。

此外,这一特性使研究者能够通过组合几个简单的组件块来生成分子,例如苯环和侧链结构,这有助于通过逐步从目标片段中搜索分子来有效地探索化学空间。总之,PixelCNN可能是一种关注分子周期性的强大方法,以探索基于片段的分子设计的化学空间。

2 方法

PixelCNN是一个自回归模型,可以建立SMILES字符串中字符的联合分布,下式乘积为条件分布:

其中,表示原始的SMILES字符串序列,是序列中的一个字符,表示给定的分子性质,和分别表示输入的2D数据的行和列。在本文中,也被称为卷积的周期。根据等式(1),SMILES字符串中字符之间的概率相关性取决于给定条件,如分子性质。换句话说,公式(1)决定了结构-性质关系(the structure−property relationship)。

图1 PixelCNN的框架结构。(a) PixelCNN结构的示意图。部分掩蔽的2D卷积层用于实现等式(1)的相关性。红色箭头指示PixelCNN中字符的局部依赖性。黄色像素中的字符局部依赖于蓝色像素中显示的字符。(b) PixelCNN中假设的字符依赖图示。中间的黄色字符依赖于蓝色字符 (c) 输入PixelCNN中的分子数据的预处理。SMILES字符串转换为2D数据作为PixelCNN的输入。在转换之前,额外的字符被加到序列的末端,图中显示为“end”。之后,每个字符根据相应的索引值进行替换。需要注意的是,输入数据和的形状可以是任意的,只要它们的乘积大于包括在训练数据集中的SMILES串的最大长度。

图1a展示了PixelCNN的框架。每个像素都包含输入的SMILES字符串中的一个字符。为了通过2D卷积建模公式(1)中的分布,作者采用了部分掩蔽的卷积层(这样可以通过预测被掩蔽部分来训练模型,谓之自回归模型)。图1a中,红色箭头表示字符间的局部依赖性。由于多层掩蔽卷积网络,图1b中的远程依赖性得以实现。本文将卷积层数设置为15层。中心黄色字符(像素)依赖于所有蓝色字符(像素)。在卷积层之后,连接softmax层以估计每个字符在每个像素中的概率。softmax层输出可能字符的概率。可能的字符数是根据组成数据集中SMILES字符串的字符确定的。在本文中使用的数据集的情况下,可能的字符是35,包括数据集中包含的SMILES字符串可以由34个字符和代表序列结尾(end)的1个字符来描述。

简言之,模型的主要步骤如下:

1.将1D SMILES字符串(末尾添加特殊字符“end”至统一长度)转换为2D数据(),(图1c第一步)。

2.根据相应的索引,将2D数据转换为数值矩阵(图1c第二步)。

3.通过多层掩蔽2D卷积层,并预测得出概率分布。

4.通过交叉熵损失函数训练模型。

图2 使用PixelCNN生成分子的过程示意图。根据先前字符和给定条件(如分子性质),PixelCNN输出下一个字符的概率分布。通过使用连续采样的PixelCNN,可以获得与给定性质相对应的分子集合。

图2展示了PixelCNN生成分子的过程。根据给定的序列,PixelCNN可以在每步中输出所有可能字符的概率分布。因此,可以通过连续采样生成与给定性质相对应的分子序列,如图2所示,这与RNN生成序列的方式相同。值得说明的是,采样过程可以从-th 字符开始,假设一个长度的SMILES字符串已经被给定,这样框架就可以应用于基于骨架分子的药物发现(fragment-based drug discovery,FBDD)任务。

3 结果与讨论

3.1 数据集

图3 ZINC数据集中性质分布,(a) log P,(b) QED和(c) SAS的分布。

训练数据集包括从ZINC数据集随机提取的250,000个类药分子。编码的SMILES字符串最大长度设置为110。作者采用3个分子性质作为本文研究示例,包括:水-辛醇分配系数(the water−octanol partition coefficient, log P)、合成可及性分数(the synthetic accessibility score, SAS)和药物相似性的定量估计(the quantitative estimation of druglikeness, QED)。图3分别展示了训练集中3个分子性质的分布情况。

3.2 PixelCNN的基准测试

首先,作者基于GuacaMol基准测试评估了PixelCNN的基本性能。特别是,作者考虑了分布学习基准(distribution-learning benchmark),它评估了模型如何学习生成类似于训练集的分子。该基准由评估目标模型性能的五个指标组成,包括有效性(validity)、唯一性(uniqueness)、新颖性(novelty)、Kullback–Leibler散度(KL散度)和Fréchet chemnet距离(Fréchet chemnet distance, FCD)。

表1 RNN和PixelCNN分布学习基准的结果

表1列出了每个模型的分布学习基准的结果。随机抽样模型(random sampler)被用作比较的基线。在uniqueness和novelty指标方面,PixelCNN表现出与RNN类似的相当高的性能。尽管PixelCNN在KL divergence和FCD方面显示出比RNN稍低的性能,但RNN和PixelCNN之间的整体性能没有显著性差异。因此,KL divergence和FCD分数的这些结果表明PixelCNN可以生成与RNN相同程度的不同分子结构。

此外,validity表明PixelCNN能以大约60%的准确率生成语法正确的SMILES序列,这意味着PixelCNN能够捕获SMILES字符串的某些结构规则。然而,PixelCNN模型的有效性基准比RNN模型低0.3。值得注意的是,PixelCNN产生的许多无效分子具有未闭合的环结构。因为字符之间的全局随机关系被PixelCNN中掩蔽卷积层实现为局部交互的产物,所以交互的程度随着字符之间距离的增加而呈指数下降。即PixelCNN隐式地引入SMILES序列中字符之间的相对局部化和封闭相关性,这意味着PixelCNN关注并主要提取SMILES字符串的局部结构。另一方面,在RNN中,可以认为跨多个层继承的隐藏状态向量有助于提取字符之间的长距离交互。

因此,通过PixelCNN,字符之间的长距离交互(如表示相对复杂的环形结构的开始和结束的符号)比RNN更难捕捉。结果,由于包括未闭合环结构的无效分子降低了PixelCNN的validity得分,validity的结果表明,RNN可以比PixelCNN更有效地捕获SMILES字符串的一般结构规则,包括字符之间的长距离交互。另一方面,PixelCNN中隐式引入的字符之间的相对局部化相关性导致生成的分子的局部封闭子结构,这可以为分子结构优化提供优势。

图4 周期与交叉熵损失和VUN的关系

作者还探索了不同周期对模型指标的影响情况。图4展示了不同周期()的交叉熵损失和VUN(VUN = Validity × Uniqueness × Novelty)的结果。可以看出,第3和第4时段被认为是最佳候选时段。因为交叉熵损失在周期3(和3的倍数)处显示出局部最小值,因此最佳周期似乎为3。虽然在SMILES表示中很难确定这个最佳周期的化学意义,并且这个最佳值被认为是问题相关的,但这个结果强烈地表明PixelCNN在分析分子周期性方面的化学空间方面的潜力。

3.3 RNN与PixelCNN在生成期望性质的分子方面的比较

图5 目标性质与由PixelCNN和RNN生成的分子的性质之间的关系图。第一行图表示PixelCNN,第二行图表示RNN。相关性系数展示在每个子图的上部。

图5显示了目标性质与PixelCNN和RNN生成的分子性质之间的对应关系图。第一行图表示PixelCNN的结果,第二行图表示RNN结果。此外,每组数据的判定系数(the coeffcient of determination, )系数显示每个子图的顶部。PixelCNN和RNN对每个性质都有相同的趋势,即QED的预测不如其他性质的预测准确。然而,对于所有性质,RNN的判定系数都大于PixelCNN的判定系数。这些结果表明,RNN可以比PixelCNN更准确地预测具有所需性质的分子结构。

图6 两种情况下,PixelCNN或者RNN生成的和训练数据集中随机采样的分子性质分布情况。图中展示了每个分布的核分布估计。上下两行分别表示PixelCNN和RNN的结果。蓝线是从训练数据集中随机采样的1000个分子的分布。绿线是PixelCNN或RNN随机生成的1000个分子的分布。给定的性质是从训练数据集中随机采样的分子的性质。红线是生成的1000个分子的分布,对应于比从训练数据集随机采样的分子高50%的log P。其他性质如QED和SAS与原始分子的性质相同。(a)和(d)表示logP的核密度估计,(b)核(e)表示QED的核密度估计,(c)和(f)表示SAS的核密度估计。

图6显示了每个分子集合的性质核密度估计分布。上下两行图分别表示PixelCNN和RNN的结果。首先,PixelCNN和RNN获得的分布没有显著性差异。它们3种性质以及由它们产生的两组分子的基本趋势类似。此外,可以看到从训练数据集采样的分子(蓝线)和PixelCNN或RNN为原始性质生成的分子(绿线)之间所有性质的分布非常一致,这意味着两个网络都可以正确捕获训练数据集的分子分布。接下来,每个子图中的红线显示了生成的分子比训练集采样的分子在log P性质上高50%。其他性质如QED和SAS与随机采样的分子相同。从这些结果来看,考虑到PixelCNN和RNN在改善某些参考分子的目标性质方面的应用,它们之间没有关键区别。

3.4 RNN与PixelCNN在FBDD中探索化学空间的比较

接着,作者讨论了PixelCNN和RNN在探索FBDD中应用的化学空间的能力方面的差异。

图7 SMILES表示的化合物空间中由自回归模型定义的随机分子网络示意图。

自回归网络能够生成包含目标子结构的分子,这相当于在化合物空间中搜索包含目标片段的分子。在这个意义上,自回归模型定义了共享同一片段的分子之间的相邻关系。因此,这可以重新表述为在化学空间中定义由给定性质调节概率分子网络。分子网络示意图如图7所示。该分子网络能够在性质方面对分子结构进行基于片段的优化。

图8 PixelCNN用于分子结构的片段生长优化示意图。对于RNN也可以执行相同的过程。片段生长可以通过对给定片段后面的字符进行采样来实现,也就是说,采样从红色像素开始。重复该片段生长过程,直到无法再获得改进性质的分子停止。

作者接着考虑了从给定的目标片段出发进行基于片段的分子生成来改进分子性质,这在本文中称为片段生长优化(fragment growing optimization)。图8显示了PixelCNN对分子结构的片段生长优化示意图。对于RNN也可以执行相同的过程。在图8中,是通过将目标性质作为条件来训练模型。片段生成可以通过对给定片段之后的字符进行采样来实现。和分别表示第步的分子结构数据和相应的性质。作者使用RDKit来评估相应的性质。图8中,选择了苯作为目标片段(第0步的分子)的情况。在这种情况下,“c1ccccc1”已经确定,然后采样从红色像素中的字符开始。此外,为了改善性能,在每个步骤中作为模型条件给出的目标性质被设置为,其中表示目标片段的性质,是用于改善的性能的增量/减量。重复该片段生长过程,直到无法再获得改进的分停止子。

之后,作者还详细讨论了RNN与PixcelCNN在FBDD中探索化学空间的比较情况。图9讨论了RNN与PixcelCNN从苯和氮出发,进行片段生长优化的结果与训练数据集中的分子图之间的比较情况。图10讨论了PixelCNN和RNN定义的分子网络中从氮出发的可搜索区域情况之间的比较。图11展示了PixelCNN和RNN获得的每组分子的5×QED−SAS的直方图。图12展示了周期的PixelCNN模型生成的SMILES字符串的长度直方图情况。图13展示了RNN生成的SMILES字符串长度直方图。详细的结论在第4节进行了总结。

图9 PixelCNN和RNN的片段生长优化结果与训练数据集中的分子图之间的比较。此外,根据目标函数5×QED–SAS,对图进行着色。此外,获得的目标函数值最高的分子以百分位数显示在每个子图下方。片段生长优化开始的片段是苯(“c1ccccc1”)和氮(“N”)作为示例。上下两行分别说明了苯和氮的优化过程。蓝色和红色十字符号分别表示苯或氮以及通过优化获得的分子的图。此外,黑色箭头表示优化过程。(a) PixelCNN从苯出发优化的结果。(b) RNN从苯出发优化的结果。(c) PixelCNN从氮出发优化的结果。(d) RNN从氮出发优化的结果。

图10 PixelCNN和RNN定义的分子网络中来从氮出发可搜索区域之间的比较。图(a)和(b)分别是PixelCNN和RNN在QED–SAS图上获得的分子图。图中的蓝色和红色十字符号分别代表起始分子(氮)和最高值为5×QED–SAS的分子。图(c)和(d)是最佳分子的SMILES表示,图(e)和(f)分别用PixelCNN和RNN获得的百分位数说明了最佳分子的情况。

图11 PixelCNN和RNN获得的每组分子的5×QED−SAS的直方图。

图12 不同周期的网络生成的SMILES字符串的长度直方图。蓝线表示分布的核密度估计。(a−c)分别对应于的PixelCNN模型。

图13 RNN生成的SMILES字符串长度直方图。蓝线表示核密度估计。

4 结论

作者报道的PixelCNN是一种基于SMILES的新型框架,用于探索化学空间。虽然PixelCNN和RNN可以通过引入序列数据的相同类型的条件概率分布来模拟分子的分布,但它们之间的最大区别之一是PixelCNN在序列中彼此不相邻的组件之间具有快捷链接。这些快捷链接适合于捕获分子的网状结构,如苯环或分支结构,使得可以将PixelCNN视为另一种适合分子生成的生成模型。因此,本文的主要目的是通过将PixelCNN与传统RNN模型进行比较,揭示其优点和特点,作为提取SMILES表示中的类网络结构的框架。

为了阐明PixelCNN的优点和特点,作者主要从以下两点进行了讨论:产生具有所需性质的分子结构的能力、探索用于片段生长优化的化合物空间的能力。

为了在PixelCNN和RNN之间进行比较,基于具有多种分子性质标签的ZINC数据集,作者训练了PixelCNN与基于GRU的RNN,并测试了每个模型在几个示例问题中的性能。

为了讨论第一点,即生成具有所需性质的分子结构的能力,使用训练好的PixelCNN和RNN生成了5000个SMILES字符串,其中log P、 QED和SAS作为目标性质。从给定的期望性质直接生成分子结构的比较结果中,作者得出结论,RNN比PixelCNN更能准确地预测分子结构。这表明RNN可以更准确地捕捉分子结构和性质之间的关系。此外,作者还考虑了根据参考分子的目标性质来改进分子结构的问题。结果,在性能上看不到明显的差异。也就是说,结果表明,两种模型都可以只改善目标性质而不恶化其他性质。

接下来,作者使用PixelCNN和RNN对几个起始分子的分子结构进行了片段生长优化。为了同时控制多个性质,作者选择了5×QED–SAS作为要优化的目标函数。这个目标函数代表了寻找最容易合成的药物分子的粗略估计。有趣的是,结果清楚地表明,PixelCNN在探索化合物空间方面优于RNN。RNN不能很好地优化起始分子,但PixelCNN可以稳健地搜索目标函数值高于包括RNN结果和训练数据集在内的几乎所有其他分子的分子结构。此外,需要强调的是,PixelCNN获得的最优分子具有更简单的结构,即最优分子由几个简单的组件块组成。

为了解释PixelCNN和RNN产生的分子结构之间的差异,作者考虑了这些模型获得的序列长度分布。结果,PixelCNN给出的分子结构的周期特性得到了清晰的说明。换句话说,PixelCNN优先生产特定长度的分子,用户可以轻松控制这些分子。由于这种周期性特征,通过PixelCNN片段生长优化获得的分子更可能由局部封闭的子结构组成,这可能有助于有效探索化学空间。未来研究需要解决的一个有趣的问题是用化学方法解释为什么PixelCNN捕捉到的周期性结构会导致对化学空间的有效探索。此外,值得注意的是,PixelCNN模型在不同时期产生的分子中没有重复。因此,该结果表明,用户可以通过改变目标周期来控制化学空间中的搜索区域。这也表明,将几个PixelCNN模型与不同时期相结合,扩大了搜索范围,可能是探索化学空间的一种有吸引力的方法。

总之,这些结果表明,尽管RNN在直接预测与目标性质相对应的分子结构方面优于PixelCNN,但基于PixelCNN的所提出的框架在分子结构的片段生长优化方面明显优于RNN方法。因此,可以得出结论,PixelCNN提供了一种新颖而强大的方法,该方法专注于基于片段的分子生成的分子周期性。

参考资料

Noguchi S, Inoue J. Exploration of Chemical Space Guided by PixelCNN for Fragment-Based De Novo Drug Discovery. J Chem Inf Model. 2022 Dec 12;62(23):5988-6001. doi: 10.1021/acs.jcim.2c01345.

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档