前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >JCIM | 结合人工智能和分子对接技术的药物分子从头设计方法

JCIM | 结合人工智能和分子对接技术的药物分子从头设计方法

作者头像
DrugAI
发布2021-09-17 13:21:03
1K0
发布2021-09-17 13:21:03
举报
文章被收录于专栏:DrugAI

据估计,可合成的类药化合物的化学空间中存在1023-1060个分子,面对如此巨大的化学空间,即使高通量虚拟筛选技术也难以应对,不过人工智能技术的发展为更加快速有效地探索该化学空间提供了希望。目前,不少基于深度学习的分子生成模型备受关注,它们可以从头设计新分子,有效拓展了可探索的化学空间大小。但是,这些模型往往只是输出类药分子,并不考虑这些分子对于蛋白靶标的活性,而可以直接针对靶标蛋白结构优化输出分子对靶点的亲和性的分子生成模型报道仍非常少见。

为了开发能够根据靶标蛋白结构设计分子的生成模型,京都大学的Yasushi Okuno等人结合深度学习技术、蒙特卡洛树搜索算法(Monte Carlo Tree Search,MCTS)以及分子对接技术提出了SBMolGen(Structure-based Molecular Generator)。该模型以其设计的分子与靶标蛋白的对接打分作为优化目标,在经过多轮次迭代优化过程之后,其设计的分子在对接打分这一评价指标上远远优于已知的活性化合物。另外,该模型设计的分子在可合成性、类药性及结构多样性也具有较好表现。此项研究成果近日发表于美国化学会出版的计算化学和化学信息学核心期刊Journal of Chemical Information and Modeling上(J. Chem. Inf. Model. 2021, 61, 3304−3313)。

SBMolGen的本质是基于强化学习优化的深度学习模型,这类模型包含三种核心要素:1. 智能体,SBMolGen中用于输出分子的智能体是基于循环神经网络的深度学习模型ChemTS,该模型首先在ZINC 250K数据集上进行训练,掌握了输出SMILES式的能力;2. 环境,在智能体通过MCTS算法输出SMILES式后,这些分子通过ETKDG方法产生多种三维构象,这些三维构象采用rDock软件与靶标蛋白进行分子对接,最高得分的构象的得分作为分子的最终对接得分;3.奖励函数,除了对接得分之外,作者还设计了一系列过滤器,其中包括可合成性打分(SA小于3.5)、符合Lipinski五规则以及分子结构特征在PubChem数据库中出现的频率。不满足以上过滤条件的分子的奖励均为-1。通过过滤条件的分子按以下公式给予奖励:

其中,DS(S)为分子的对接得分,DSbaseline为根据该靶点已知活性分子及非活性分子在该靶点上对接得分设置的基准,s是常数,其值为0.1。

为了测试SBMolGen的性能,作者选取了CDK2,EGFR, AA2AR,和ADRB2四个靶点蛋白进行测试,针对每一个靶点SBMolGen以不同的参数C(C分别为0.2,0.4,0.6,0.8,1.0,C是MCTS算法中的一个参数,C越大,模型更倾向于探索未探索的节点,即倾向于产生更具多样性的分子)进行120小时探索。在这一过程中,SBMolGen针对每一个靶点平均产生25000个分子,可以发现随着探索时间的不断延长,SBMolGen设计的分子的对接得分呈现下降趋势(图1)。另外,随着C的增大,对接得分下降的趋势减缓(图1E),这可能是由于输出的分子结构多样性更丰富导致打分函数的收敛性变差。作者除了关注SBMolGen设计分子的对接打分结果之外,也对设计分子的可合成性分数(图2)、类药性分数(图3)进行了分析,结果显示这些分子大多易于合成且类药性良好,这克服了传统的从头药物设计软件常常给出难以合成的复杂分子的缺陷。

图1、SBMolGen所设计分子的对接打分结果随探索时间变化的曲线。A,B,C,D分别为SBMolGen在CDK2、EGFR、AA2AR和ADRB2的测试结果。E为SBMolGen在四个靶点中相应探索时间下在产生的分子在对应靶点中的打分结果的平均值。

图2、SBMolGen设计分子的可合成性分析。SA取值范围为1-10,越接近于1表明该分子越易于合成。

图3、SBMolGen设计分子的类药性分析。QED取值范围为0-1,越接近于1表明该分子的理化性质和结构与已知的药物分子越接近。

作者对比了SBMolGen所设计的打分结果最好的分子和已知的活性分子的结合模式及它们的对接打分情况(图4)。从打分结果以及蛋白-配体相互作用的分析中均可以发现SBMolGen所设计的分子要优于已知的活性分子。

图4、SBMolGen设计结果和已知活性分子的结合模式与打分。第一至四行分别为CDK2、EGFR、AA2AR和ADRB2的结果。第一列至第四列分别为SBMolGen设计分子(白色)以及晶体中配体(彩色)叠合图、概览和晶体配体和设计分子的蛋白-配体相互作用分析。

除了设计分子的活性以及理化性质外,生成模型设计分子的多样性也是评价生成模型性能的重要指标。因此,作者采用ISOMAP算法将SBMolGen生成的分子以及起初用于训练SBMolGen的ZINC 250K中分子的分子指纹压缩至二维空间进行可视化(图5)。可以发现,SBMolGen所设计的分子所处的化学空间要超出ZINC 250K的分子所处的化学空间。这说明SBMolGen具有探索能力,而不是仅仅“记住”训练集中分子的特征。为了进一步说明SBMolGen设计分子的多样性,作者还将各个靶点中SBMolGen所设计的分子与已知的活性分子进行相似性比较,无论是分子整体的相似性(Tanimoto分数约0.2)还是这些分子的母核相似性(Tanimoto分数约0.3)均较低,体现了SBMolGen设计分子的新颖性。

图5、采用ISOMAP对ZINC 250K数据集分子(灰色)以及SBMolGen设计分子(彩色)进行可视化。颜色用于区分SBMolGen在经过不同的探索时间后的输出结果。(其中一部分情况下SBMolGen设计的分子未收敛,与ZINC 250K数据集分子无显著区别)

图6、设计的分子与已知活性的分子相似性分布。第一行为分子整体水平相似性,第二行为分子母核结构相似性。(Tanimoto分数取值范围为0-1,越接近0表示相似性越低)

总结

作者结合深度学习、MCTS和分子对接技术发展了基于靶点结构的药物从头设计模型SBMolGen。在多个靶点的验证实验中,SBMolGen所设计的分子从对接打分这一指标上显著优于已知活性分子,且其设计的分子具有较好的可合成性、类药性以及结构多样性,可以为药物化学家提供新的思路与建议。文章中SBMolGen在一个靶点中的探索时间为120小时,这样的计算资源占用量和传统的通过对接对大型数据库进行虚拟筛选所占用的计算资源并无显著区别,但是SBMolGen却能更有效地探索更大的化学空间。可以预见,将深度学习技术融入到药物发现过程中很有希望成为药物设计的新范式。

参考文献

Biao Ma, Kei Terayama, Shigeyuki Matsumoto, Yuta Isaka, Yoko Sasakura, HiroakiIwata, Mitsugu Araki, and Yasushi Okuno. Structure-Based de Novo Molecular Generator Combined with Artificial Intelligence and Docking Simulations. J. Chem. Inf. Model. 2021, 61, 7, 3304–3313.

(DOI:10.1021/acs.jcim.1c00679)

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档