前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Mach. Intell. | 利用生成式化学模型设计有效的抗疟药物

Nat. Mach. Intell. | 利用生成式化学模型设计有效的抗疟药物

作者头像
DrugAI
发布2022-03-25 13:55:13
2530
发布2022-03-25 13:55:13
举报
文章被收录于专栏:DrugAI

编译 | 厉小明 审稿 | 贺小龙

今天带来的是美国诺华生物医学研究所和热带疾病研究所发表在Nature Machine Intelligence上的Design of potent antimalarials with generative chemistry。生成建模的最新进展允许通过深层神经网络设计新的化合物,例如一种神经网络模型JT-VAE(the Junction Tree Variational Auto-Encoder)擅长提出化学有效结构。在这里,研究人员在JT-VAE的基础上构建了一种生成建模方法JAEGER,用于寻找具有所需生物活性的新型化学物质,并且还使用JAEGER设计了抑制疟疾的化合物。

1

引言

机器学习,特别是深度学习,有望在多种疾病领域取得突破,包括疟疾等传染病,这些领域对新分子的需求一如既往地迫切。这种由寄生虫引起的疾病每年造成约40万人死亡,其中大部分是撒哈拉以南非洲地区五岁以下的儿童。在缺乏疫苗的情况下,治疗和预防传播措施一直是减轻疟疾负担的基石。然而,目前的治疗方法在对抗进化出耐药性的寄生虫方面收效甚微。为了遏制这种疾病的影响,需要药物组合和一系列新的抗疟药物。在这种情况下,机器学习被证明可能是加速发现和开发新型抗疟药物的关键。

使用计算方法来增强和加速新型活性化合物的设计一直是药物发现的目标。机器学习的进步,特别是深度神经网络的进步,使得通过这些计算模型可以生成具有理想的物理化学和生物活性特质的化合物结构。许多“生成化学”模型通过SMILES字符串表示分子,这些字符串将分子图形编码为文本。由于分子生成是以文本生成任务的形式呈现的,所以语法错误会导致SMILES字符串无法转换为分子结构。而其他模型直接通过加权图表示分子。在这种情况下,分子生成被转换为图形生成任务。图形生成方案通常采用顺序方法,每次添加一个原子(逐个原子生成)。这种方法需要进一步修正化学上无效的中间图。JT-VAE等模型通过子结构方式生成图形来回避这一问题,从而始终生成有效分子。非顺序方法也被证明能始终生成有效分子。生成化学模型不断提出新的有效分子的能力是药物化学团队获得信心的关键。

在本文中,研究者们开发了一种基于JT-VAE的生成化学方法JAEGER,该方法将计算效率高的数值搜索策略与分析活性模型相结合,以生成新的活性分子。并应用JAEGER提出了一种新的疟疾活性抑制剂。根据pQSAR模型对提案进行优先排序,然后合成和分析两种化合物。结果表明两种化合物均具有较强的抗疟疾活性。

2

结果

JT-VAE模型通过联合树(描述分子内部子结构的排列)和分子图来表示一个分子。树和图的表示分别映射到单独的28维(28D)向量上。因此,在JAEGER中,训练一个JT-VAE模型,将单个分子编码到两个28D向量表示上,并将这两个向量解码成一个分子(图1a)。与训练集中的分子相对应的树和图向量集合跨越两个28维的连续潜在空间,JAEGER探索这些空间以获得新的活性分子。这些潜在空间的探索由一个活性模型来指导,其值以半最大抑制浓度的负对数给出(pIC50)。用分子编码、解码和活性预测任务来联合优化JT-VAE模型,以确保潜在表征支持所有这些任务。

优化JT-VAE模型后,JAEGER将以种子分子为起点生成新的活性分子。JAEGER通过在树和图的28D子空间中定义起点周围的多个主轴来确定邻居(图1b)。这些主轴的方向和大小分别与分子训练集合的树和图形潜在向量的协方差矩阵的特征向量和特征值成比例。在树和图形子空间中,JAEGER沿各个轴以与轴的大小成比例的间隔采样位置,将树和图子空间中的样本合并,得到56D向量,这些向量被传递到活性模型上,以预测联合样本的pIC50值。只有pIC50高于特定阈值的联合样本才被选择用于解码。

图1:JAEGER概述。a:JT-VAE模型的架构; b:在模型的树和图的潜在空间中提出的采样方案。

为了建立JT-VAE模型来设计疟疾抑制剂,研究者们使用了在诺华内部恶性疟原虫增殖试验中测试过的分子。该数据集共有21065个分子,测量值为pIC50。训练完成后,通过模型传递训练集中的每个分子,并在树和图的空间中记录它们的潜在向量。然后对这些向量集合进行主成分分析,并将得到的主成分预测与已知的化学性质相关联,例如分子量和辛醇/水分配系数的对数(cLogP)。由于通过残差神经网络和潜变量的多个非线性组合对分析活动进行建模,分析活动与潜变量的单一线性组合之间的相关性较低,这是由数据点到单个主成分的线性投影所导致的。活动梯度仅出现在多个主成分上,表明探索多个主成分是有利的。通过随机分割交叉验证机制,确保学习的特征支持树和图重建以及活性预测。模型的树和图重建平均误差分别为6%和8%,而潜在空间活性模型的预测与实验pIC50的相关性为r2=0.46。均方根误差(RMSE)和平均绝对误差(MAE)分别为0.57和0.43(表1)。

表1:JAEGER模型性能指标

在确定了模型的有效性后,研究者们使用三种疟疾抑制剂作为种子分子进行采样。其中一个是间日疟原虫PI(4)K抑制剂,而另外两个是表型铅分子,没有既定的作用机制。研究者们总共取样了282个新的虚拟分子,并计算了它们的分子特性(例如,分子量、cLogP以及合成可及性分数(SAS))。这些性质的分布与在训练分子上计算的分布非常相似(图2),因此证明JAEGER可以生成与测试的性质相当的真实分子。在随机分割的测试集上,预测值与pQSAR模型实验值的相关性为r2=0.63,这是一个相对较好的值。从最初的282个虚拟分子列表中,只选择了预测pQSAR pIC50最高的四个化合物进行合成。在这四种化合物中,只有两种化合物(化合物1和2)被合成。两种化合物与训练集的Tanimoto相似性如图3所示。可以观察到训练集中的大部分化合物与合成的化合物基本不同(Tanimoto的平均相似性分别为0.18和0.17)。

图2:训练分子和模型生成的282个分子的计算性质分布。计算性质的分布:分子量、cLogP、SAS、拓扑极性表面积(TPSA)、氢键供体数(HBD)、氢键受体数(HBA)。对于每个属性,训练分子的直方图显示为橙色,而生成分子的直方图显示为蓝色。橙色或蓝色实线表示各个直方图的核密度估计值。

图3:合成化合物的结构。两种合成化合物的结构及与训练集的Tanimoto相似性

随后研究者们调查了合成的分子是否具有抗疟活性。化合物1和2在体外对恶性疟原虫进行了测试。在添加化合物并培养72小时后,化合物1和2具有高度活性,IC50值分别为0.023μM和0.025μM。相比之下,在同一实验中用作对照的抗疟药物甲氟喹的IC50为0.048μM。相对于训练集中分子的活性分布,两个分子的活性值下降到第94个百分位。其次,由于衍生出这两个分子的种子分子对间日疟原虫PI(4)K(PvPI(4)K)具有活性,研究人员研究了合成的分子是重复了这种作用机制,还是继承了训练集中其他分子的不同作用机制。在PvPI(4)K分析中,化合物1和2具有活性,IC50值分别为0.0028μM和0.0016μM。在同一实验中,PvPI(4)K的对照KDU731的IC50为172 pM。最后,研究人员调查了是否存在与细胞毒性相关的潜在非靶点。化合物1和2在体外针对肝癌细胞HepG2进行肝毒性试验。在添加化合物并培养72小时后,化合物1和2显示出非常低的活性水平,IC50值分别为55.83μM和60.29μM,而泛激酶抑制剂staurosporine的IC50为0.09μM。

3

总结

作者们的研究显示了生成化学在开发新型抗疟药物方面的潜力。JAEGER方法在其他疾病领域的应用相对简单,目前正在探索中。进一步的工作还涉及多个分析和ADME参数的建模,以确保不同的作用机制、靶外活性和药代动力学参数。还计划开发算法以缩短计算时间。

参考资料

Godinez, W.J., Ma, E.J., Chao, A.T. et al. Design of potent antimalarials with generative chemistry. Nat Mach Intell 4, 180–186 (2022).

https://doi.org/10.1038/s42256-022-00448-w

演示数据集

https://chembl.gitbook.io/chembl-ntd/downloads/deposited-set-2-novartis-gnf-whole-cell-dataset-20th-may-2010.

代码

https://github.com/Novartis/JAEGER.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档