前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | 结合分子结构与生物活性的生成化学语言模型

Nat. Commun. | 结合分子结构与生物活性的生成化学语言模型

作者头像
DrugAI
发布2023-03-09 15:29:43
3790
发布2023-03-09 15:29:43
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 程宁

本文介绍一项由苏黎世联邦理工学院化学与应用生物科学系和苏黎世大学儿童医院联合发表于Nature Communications的研究工作。作者开发了一个利用已知配体结构和生物活性信息的分子设计方法,在大量化合物结构中预训练了两个生成化学语言模型(CLM),通过微调将CLM生成的分子偏向于特定的化学空间。通过对生成分子及其衍生物的活性测试验证了模型的有效性。

简介

计算方法已成为药物研究中先导化合物发现的重要方法,通过虚拟化合物数据库探索未开发化学空间,从而扩大潜在候选药物的多样性。然而这种方法生成的虚拟化合物库规模太大,从中筛选到正确分子的概率会大大降低。因此基于生成式深度学习的化学语言模型逐渐兴起,从而获得小型、集中的虚拟化合物库以便集中的对于某一化学空间进行研究。作者使用基于深度学习的CLM,开发了针对特定靶标的活性化合物设计框架,本文贡献如下:

  • 开发了基于长短期记忆神经网络(LSTM)的CLM。该模型基于自回归方法进行训练,可以通过给定SMILES的先前字符迭代预测下一个字符,同时通过迁移学习将CLM聚焦于PI3Kγ配体空间。
  • 为了避免CLM仅根据给定字符出现的概率预测下一个字符,采用温度采样和核采样方法提高模型SMLIES预测的有效性和新颖性。
  • 通过ELECTRA方法进行CLM预训练,E-CLM模型预测活跃分子的性能相较于CLM有显著提升。同时使用集成学习的方法增加模型置信度。
  • 通过分子活性验证和相似性比较,验证了CLM生成特定靶标配体的可行性。

方法

预训练-微调

本文探索了两种预训练策略CLM和E-CLM,使用大量未标记数据进行特征学习。

  1. CLM使用四层LSTM网络、Adam优化器和二元交叉熵损失函数进行模型训练。通过自监督方法在美国专利库中839674个药物分子独热编码的SMILES序列上进行预训练。CLM适合用于生成 SMILES 字符串,因为其训练与分子生成任务是相同的,即迭代添加字符。通过迁移学习使预训练的CLM模型关注于PI3Kγ配体的目标空间。在50个迁移学习中,采样了5000个SMILES字符串,重复10次,共生成2500000个SMILES字符串,其中1121735个是新生成且有效的。
  2. 使用ELECTRA方法预训练的模型称为“E-CLM”,ELECTRA模型与生成CLM的架构相同。ELECTRA在一些错误的SMILES字符串上进行训练,从而预测SMILES字符串中每个字符是否正确。与自回归预训练相比,ELECTRA预训练具有更合适的归纳偏差来提取有用的特征以进行有序分类。

图1 CLM和E-CLM预训练过程

分子生成采样

从CLM训练期间学习的概率分布中,通过加权随机采样来迭代地添加字符串,给定字符在CLM中学习的概率越大,被采样的概率越高。CLM采用温度采样与核采样的方法提升模型预测的置信度,公式如下所示。

  • 温度采样:使用由采样温度参数化的softmax函数对SMILES字符进行采样。在CLM预测中采样的第i个字符的计算概率如下:

其中

是字符的CLM预测,T是温度,

是字符的采样概率。

  • 核采样:SMILES字符在温度采样概率为1时被采样,仅考虑累积概率大于核参数的字符

其中

是top词汇表,x是词汇表的一个元素,p是核参数。

分子活性预测

为探索预训练策略对预测的影响,在预训练的CLM和E-CLM模型中添加由三个神经元组成的前馈层进行生物活性预测,生物活性被分为三个等级:无活性(pIC50≤ 4.0,34个分子)、中等活性(4.06.5,43个分子)。为解决数据不均衡问题,对无活性和高活性的数据进行了过采样。CLM通过微调分子结构信息生成了一个集中的虚拟化学库,而分类器层将它们的活性标签纳入模型。

深度集成学习

为增加生物活性预测的置信度,使用深度集成学习将多个预测模型结合多数投票方法,在生物活性预测任务中训练了100个不同的E-CLM分类器。由于优化过程的不确定性,相同的CLM重复训练会导致不同的模型。预测的置信度定义为将给定分子分类为“高活跃度”的模型数量。

实验

模型预测活性

作者对于两种不同预训练策略CLM和E-CLM模型,分别进行:两层微调、两层不微调、仅第一层微调和仅第二层微调。结果表明E-CLM在识别高活跃分子的任务中比CLM表现更好,同时大大减少了被错误归类为高活性的非活跃分子数量。具体预测结果如图2、图3所示。

图2 CLM预测结果

图3 E-CLM预测结果

已上市生成分子的活性验证

为了提升测试的效率,选用CLM生成的分子中已上市分子作为活性验证的样本,其置信度从80/100~24/100不等。通过验证得知,模型预测出的化合物1对于PI3Kγ具有体外活性,且化合物1的置信度大于具有相同分子骨架的化合物2和3(体外无活性),这证明了模型预测分子活性的可信性。

图4 已上市药物置信度及其活性

合成分子的活性测试

模型合成了置信度靠前的化合物17,20(99/100置信度)及其衍生物18,19,21,22。使用TIGER软件对其进行靶标预测,并根据分子骨架对分子进行分组。其中化合物17、20都获得了良好的TIGER评分,并且在结构上与已知的PI3Kγ抑制剂(化合物23、24)相似,这表明了该方法分子骨架跃迁能力的优越性。化合物17、20、23、24都具有相同的吡唑并嘧啶激酶铰链结合基序,但是化合物23、24在侧链R的位置上有所不同,因此生成分子方法构建了新的分子骨架S1。对生成的化合物17、20进行PI3Kγ结合测试,结果证明化合物17和20的活性均明显高于化合物1(80/100置信度),这与E-CLM预测的结果相符合。

综上,作者验证了本文的分子设计方法可以识别新的分子骨架及活性化合物衍生物,用于计算机辅助发现先导化合物。E-CLM的集成评分也适用于虚拟配体的筛选过程,但不能有效区分结构相似的配体。

图5 已知的抑制剂及分析相似性

总结

在这项工作中,作者探索了深度学习在药物发现和寻找活性分子化合物中的多种可能性。作者通过CLM生成特定分子空间的虚拟分子化合库,然后通过E-CLM对这些分子进行活性预测,分析预测活性较高的化合物能够发现新的分子骨架,从而加快活性分子化合物的发现。在未来,这种策略可能有助于加速药物发现-设计-制造-测试的周期。

参考资料

Moret, M., Pachon Angona, I., Cotos, L. et al. Leveraging molecular structure and bioactivity with chemical language models for de novo drug design. Nat Commun 14, 114 (2023).

https://doi.org/10.1038/s41467-022-35692-6

代码/数据

https://zenodo.org/record/7370858 (https://doi.org/10.5281/zenodo.7370858)

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-01-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档