由于简化分子输入线入系统(SMILES)面向分子的原子级表示,并且在人类可读性和可编辑性方面不友好,然而,IUPAC是最接近自然语言的,并且在人类可读性和分子编辑方面非常友好,我们可以操作IUPAC来生成相应的新分子并产生适合编程的SMILES形式的分子。此外,抗病毒药物设计,特别是基于类似物的药物设计,更适合直接从IUPAC的功能团水平进行编辑和设计,而不是从SMILES的原子级水平进行设计,因为设计类似物仅涉及改变R基团,更接近化学家基于知识的分子设计。在此,我们提出了一种新颖的数据驱动的自监督预训练生成模型,称为“TransAntivirus”,以进行选择性替换编辑,并将有机分子转化为设计抗病毒候选类似物的所需性质。
在这项研究中,我们首先对序列进行了标记化处理。因此,我们采用了基于字符的SMILES标记化方法,其中SMILES字符串中的标记对应于各个原子和化学键。相反地,我们构建了基于规则的IUPAC标记化器,其中IUPAC名称中的标记类似于众所周知的功能团和基团。
图1. TransAntivirus的框架
总体而言,我们的编码器-解码器Transformer实现紧密遵循了其最初提出的思路。我们可以从T5模型中得出两个关键点。首先,T5模型是以最大似然目标进行训练,无论任务如何。另一方面,我们注意到用于给定任务的文本前缀选择实质上是一个超参数。受到上述两点的启发,我们开发了自己的属性控制分子生成模型。首先,我们在每个输入的开头添加一个前缀作为属性控制条件,并在生成的序列前添加一个标记,指示原始分子的计算属性值。为了获得这些属性值标记,我们将属性值的分布离散化为三个区间。第二点是将最大似然目标的输出作为IUPAC嵌入表示获取。
TransAntivirus预测模型被整合到一个统一的端到端神经网络学习框架中(图1)。首先,TransAntivirus利用属性控制的Transformer模型以及预训练和微调的训练模式来学习IUPAC名称的内部关系。其次,原始的Transformer预测模型接收TransAntivirus输出的第一部分(最大似然)进行进一步的非线性转换。通过解码转换后的softmax向量,得到最终的预测结果。TransAntivirus预测模型中的所有参数都通过自适应矩估计的梯度下降同时进行优化。图2从原始的Transformer进行了修改,展示了我们提出的框架内部。
图2 使用TransAntivirus模型进行虚拟筛选和分子设计的分子化学空间的高效增强采样
结果与讨论
模型性能比较
表1. 三个生成模型生成化合物的属性:属性包括有效性、独特性和新颖性,多样性
化学属性分布的比较
图3. TransAntivirus模型生成分子性质分布比较
化学空间分析
图4. (a)核苷类似物和(b)非核苷类似物的化学空间分析。
属性优化分析
图5. 核苷类似物和非核苷类似物在LogP的三个水平上输入数据与生成数据的比较。
以上结果表明,TransAntivirus在新颖性、有效性、独特性和多样性方面明显优于对照模型。通过化学空间分析和性质预测分析,TransAntivirus在核苷类和非核苷类类似物的设计和优化方面表现出优秀的性能。此外,为了验证TransAntivirus在抗病毒药物设计中的适用性,我们进行了两个案例研究,设计了核苷类类似物和非核苷类类似物,并筛选了四个候选首选化合物用于抗冠状病毒疾病(COVID-19)。
图6. 抗病毒药物与SARS-CoV-2 RNA依赖性RNA聚合酶(RdRp)结合位点的配体相互作用图。抗病毒药物包括(A)Remdesivir三磷酸(RTP),(B)化合物a2和(C)化合物a1。蛋白质-抑制剂复合物的结合自由能(kcal/mol)由MM/GBSA方法预测
图7. 抗病毒药物与SARS-CoV-2 3CLpro结合位点的配体相互作用图。抗病毒药物包括(A)bedaquiline,(B)化合物b7和(C)化合物b18。蛋白质-抑制剂复合物的结合自由能(kcal/mol)由MM/GBSA方法预测。
总结
需要强调我们研究的一些限制。首先,评估生成设计模型的指标不断发展,不可能探索所有已在文献中报道的指标。重要的是,对生成模型的性能评估始终要结合在特定项目目标中应用的指标进行。其次,对于生成式分子设计问题,不存在黄金标准的验证集。因此,在评估生成的分子与参考集之间的相似性时,我们认识到可能会漏掉一些具有生物学意义的分子。未来研究有几个方向,我们在我们的研究中不包括在内。由于我们提出的TransAntivirus是一种用于双模态分子生成和属性优化的通用方法,将其应用于其他领域和问题,例如学习SMARTS和SMILES之间的关系,将会很有趣。此外,多目标优化的分子性质是一个非常具有挑战性的问题。然而,TransAntivirus可以通过将其编码为分子序列顶部的前缀来轻松扩展到多目标分子优化。最后,多目标和多模态研究是目前分子生成的关键方向。融合更多维度的数据,满足更多目标的要求对于开发这样的AI模型至关重要;例如,可以将强化学习方法与TransAntivirus相结合,使用基于提示的方法进行微调。
参考资料
Jiashun Mao, Jianmin Wang, Amir Zeb, Kwang-Hwi Cho, Haiyan Jin, Jongwan Kim, Onju Lee, Yunyun Wang, and Kyoung Tai No. "Transformer-Based Molecular Generative Model for Antiviral Drug Design" Journal of Chemical Information and Modeling, 2023;, DOI: 10.1021/acs.jcim.3c00536
代码
https://github.com/AspirinCode/TransAntivirus