《分子生成》引入Randomized SMILES改善化学

——生物学背景——

探索未知的化学空间是药物发现领域的重点目标之一,因为类药化学分子数量巨大到无法穷尽。GDB数据集包含众多片段类似的化学分子,是一个用于尝试理解化学空间的重要数据集。

在过去的两年间,研究人员提出了诸多用于探索化学空间的化学分子生成模型,通过指定数据集训练模型去学习生成类似训练集的新的化学分子,以及通过强化学习和迁移学习的方式可以指定生成具备某些性质的分子。目前分子生成模型主要分为基于SMILES的生成模型和基于Graph的生成模型,其中基于SMILES的分子生成模型所使用的深度学习框架包括了RNN、VAE、GAN等。

——Randomized SMILES ——

这篇文章作者通过比较基于GDB-13的规范式的SMILES数据集和Randomized SMILES数据集来训练模型,得出后者能更好提高模型生成化学分子的能力。

规范式的SMILES是按照Morgan算法对化学分子采用的一种字符串描述,一般满足特定规则(比如分子顺序等)并具有唯一性(如图1A所示)。Randomized SMILES则是通过打乱分子顺序或者不依照侧链顺序等的字符串描述,理论上对于一个分子有n!方式。对于随机化的SMILES,作者进一步将其分成了完全无限制的随机和有一定约束的随机两种情况。

图1. 不同的SMILES描述方式

——方法和数据集——

这篇文章使用RNN作为模型框架,比较了两种RNN变体LSTM和GRU对模型的影响。模型是线性架构,首先经过Embedding层对预处理SMILES的one-hot形式进行编码,再经过多层RNN处理,最终经过线性转换层输出(图2)。

图2. 模型架构

模型训练采用3种规模数据集,每种均采取规范式SMILES和Randomized SMILES,其中后者的模型每个epoch数据都是重新抽样。此外,模型还比较了不同超参数对模型性能的影响(比如batchsize,dropout等),并且作者还提出UC-JSD指标来评估模型的性能,该指标旨在比较训练集和测试集的NLL分布,可用于挑选最佳的训练模型。

——模型结果及总结——

作者首先使用GDB-13数据集进行了训练。不论在哪种规模数据集上,均是有限制的Randomized SMILES数据集表现优于另两类SMILES,并且在大规模数据上,前者训练时间和各个评价指标都表现更好(图3)。

图3. 不同数据集规模的模型结果

之后,作者又用ChEMBL数据集进行了测试。在ChEMBL数据集上,规范式数据集训练结果偏过拟合,而Randomized SMILES测试集训练集的KDE(核密度估计)分布一致,表明后者能更好覆盖化学空间(图4)。

图4. 在ChEMBL数据集上两种模型核密度估计分布

作者认为之所以规范式SMILES训练的模型不足以探索更广的化学空间,是因为相较于Randomized SMILES这种自由随机对化学分子的字符串描述,规范式SMILES字符串描述存在的规则约束(原子顺序、侧链顺序等)使得模型在训练时需要额外学习这些规则从而使得生成的化学分子具备某些特质更类似于训练集(规范式SMILES),而Randomized SMILES数据集对化学分子的字符串描述没有约束,则训练模型时不用额外学习描述规则,使得泛化的更强。这一结果,或可为今后的分子生成模型训练集的设计带来新的启发。

参考文献:

Arús-Pous, Josep, et al. "Randomized SMILES strings improve the quality of molecular generative models."(2019).

往期相关回顾:

循环神经网络在从头分子设计中的应用

图生成模型在从头分子设计中的应用

流模型的发展史:NICE RealNVP Glow

点击左下角的"阅读原文"即可查看原文章。

作者:胡启万

审稿:王世伟

编辑:林康杰

GoDesign

ID:Molecular_Design_Lab

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190820A0C9BM00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券