首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Scientific Reports|利用强化学习和对接生成分子,开发新抑制剂

Scientific Reports|利用强化学习和对接生成分子,开发新抑制剂

作者头像
智能生信
发布2021-03-03 15:56:49
发布2021-03-03 15:56:49
1.3K0
举报
文章被收录于专栏:智能生信智能生信

作者 | 庞超 编辑 | 庞超

今天给大家介绍的是韩国科学技术院的Dongsup Kim等人发表在scientific reports上的论文”Autonomous molecule generation using reinforcement learning and docking to develop potential novel inhibitors”。作者开发了一种计算方法,称为强化学习和对接的分子优化(MORLD),它通过结合强化学习和对接来自动生成和优化先导化合物,以开发新抑制剂。该模型只需要目标蛋白结构,通过直接修饰配体结构,就可以在没有任何其他训练数据的情况下获得具有更高目标蛋白预测结合强度的分子。

一、研究背景

人工智能在药物发现中的应用越来越广泛,使用AI发现药物的重要目标之一是开发自主的、新的药物设计方法。最近一个名为GENTRL的深层生成模型被用于在46天内开发抗DDR1的有效抑制剂,包括21天的分子生成过程。然而,为了确保方法的成功,需要提供各种实验数据,包括针对目标药物靶点的活性数据,而新的药物靶点通常并没有这些数据。此外,GENTRL产生的分子与训练数据集9中已知的活性分子没有明显的差异。因此,不需要实验数据的药物设计方法,特别是目标特异性数据,被高度追求。药物设计的另一个相关方法是虚拟筛选。最近,Lyu等人在超大型复合文库上发现了D4DR虚拟筛选的强效激动剂。然而,超大型复合库的虚拟筛选计算需要技术专长和广泛的计算资源。

在本工作中,作者介绍了一种新的深度生成模型,称为强化学习和对接(MORLD)模型,通过结合强化学习和对接模拟来设计潜在的新抑制剂。这种方法的关键特征是,通过分子对接模拟计算出的结合强度被作为强化学习的奖励之一。模型只需要目标蛋白的三维结构信息。对于分子优化,模型不需要任何训练数据。一旦提供了目标受体结构,模型将直接自动修改输入化合物的分子结构,以达到更高的目标蛋白对接分数。此外,在中等算力的计算机上,整个设计过程不到两天,这比GENTRL的21天分子生成过程要短得多。为了证明方法的有效性,作者使用模型设计了潜在的新的DDR1抑制剂和D4DR激动剂。通过各种计算方法对生成的化合物进行评价表明,与已知的抑制剂相比,它们具有更理想的分子性质。

二、模型与方法

图1为MORLD中优化过程的示意图。在MORLD中,一轮优化由T步修改组成。

图1.MORLD优化过程

1. 状态n时的分子(初始分子n=0)进入MORLD。

2. 输入分子由MolDQN修饰。MolDQN是一个基于强化学习和化学领域知识优化分子性质的框架。在MolDQN中,单个动作以化学有效的方式加入原子以及添加或去除化学键,这意味着在采取特定动作后产生的新分子应该满足价态约束。要修改的原子类型由用户指定,只有所有键都满足价态约束才被认为是一个动作。随着要考虑的原子类型的多样化,输出的化学多样性会增加,但搜索成本也会增加。在本研究中,作者采用了衰减ϵ贪婪的方法,其中MolDQN的动作是随机选择的概率为ϵ,或者根据当前Q函数选择最佳动作,概率为1-ϵ。并且epsilon值随着轮次增加从1到0逐渐减小。关于MolDQN更多细节,请点击Scientific Reports|通过深度强化学习优化分子

3. 通过评分函数对修饰分子进行评价。此处根据状态应用不同的评分函数。如果状态不是端态(n<T),则通过合成可达性(SA)和定量评估类药性(QED)来评估修饰分子。SA评分用以估计类药物分子是否容易合成。QED评分则是对特定分子与已知药物在各种物理化学性质和结构特征方面的相似程度的定量估计。这些评分激励MORLD生成易于合成且具有与已知药物相似的物理化学性质和结构特征的化合物。

4. 两个分数的加权和作为MolDQN的奖励,修饰的分子变成了下一个状态的分子。上述过程被重复,直到它达到最终状态T。当状态为T时,修饰的分子将被QuickVina2对接,它对目标蛋白的准确性略低于Autodock Vina,但速度较快。QuickVina2的对接分数将作为MolDQN的奖励。然后处于最终状态的分子成为优化的结果,一次优化结束。因此,在每一轮中,都会产生一个分子。因此,产生的分子数量与轮次数相同。

同时,MolDQN试图缩小行动的预期未来回报(称为Q值)与从经验中选择的行动的实际回报之间的差距。通过许多轮的经验,预期的未来奖励逐渐接近实际的奖励值。换句话说,它学会了哪种行动将在未来带来更高的回报。最终,随着轮次数的增加,MORLD稳定地产生潜在的具有更高的对接评分(以及高SA和QED评分)的新抑制剂。

三、实验结果

为了评估MORLD的有效性,作者建立了一个控制模型(随机模型),通过随机选择的行为来改变化合物的结构,而不像MORLD的行为基于Q值。作者使用DDR1(PDBID:3ZOS)的蛋白质结构作为目标蛋白结构,比较了随机模型和MORLD模型对蛋白质目标DDR1的优化结果。两种模型的初始先导分子均为3ZOS的配体“ponatinib”,结合位点信息也来源于3ZOS。

图2. MORLD和随机模型的比较结果

图2中,a图为MORLD和随机模型生成的化合物的分子性质评分,蓝色为MORLD,橙色为随机模型,红色水平线为初始分子的性质评分。b图中红色线为每100轮优化产生的独特分子数,蓝色表示产生分子的QuickVina2对接分数的平均值(线)与标准差(浅色区域)。c图为从MORLD(蓝色区域)和随机模型(橙色区域)产生的化合物与先导化合物(ponatinib)的Tanimoto近似性评分。

3.1 生成分子性质比较

在图2a中,可以看到,随着训练的进行,MORLD清楚地改善了生成化合物的分子性质。在初始阶段,生成的化合物与随机模型不能区分,这是因为MORLD使用衰减ϵ贪婪的方法进行勘探。在早期时,MORLD更偏向于探索,采取随机行动的概率ϵ接近1。然而,随着轮次增大,MORLD逐渐增加了采取贪婪行动的概率,开始学习哪个行动会带来更高的回报。在足够的训练时间内,MORLD能够稳定地生成具有更好的性质分数的分子,而随机模型则不能。

3.2 生成分子冗余度比较

接下来,作者研究了MORLD是否能在训练过程中产生非冗余化合物(图2b)。作者统计了每100轮的唯一化合物的数量,并计算了这些化合物的平均对接分数。图2b显示MORLD可以随着训练的进行而产生具有更好对接分数的化合物;MORLD化合物的平均对接分数在训练结束时接近16kcal/mol,比其先导化合物的对接分数小3kcal/mol。相反,来自随机模型的化合物的对接得分平均值没有提高。

然而,可以注意到,在第7000轮附近,大约80%的生成化合物是多余的。正如原MolDQN论文中已经提到的,原因是MORLD中的强化学习算法倾向于遵循单一的最优策略来获得给定的奖励。因此,在足够的训练之后,MORLD只根据从训练中学到的最佳策略行事,导致有限数量的非冗余化合物。

3.3 生成分子多样性及与先导分子的相似度

最后,作者检查了生成的化合物的多样性,以及与其先导化合物的相似性(图2c)。在这里,作者删除了每个生成的化合物集合中的冗余化合物,并根据化合物的扩展连接指纹(ECFP)计算了化合物相对于先导化合物的Tanimoto评分。结果表明,MORLD产生的化合物与先导化合物明显更相似。而且,从图中可以清楚地看到,MORLD可以产生非常多样的化合物,其与先导化合物的Tanimoto评分范围从0.5到0.8不等。

四、总结

在本工作中,作者开发了一种名为MORLD的自主分子生成方法,通过结合强化学习和对接,自动生成和优化先导化合物。首先,MORLD除了目标蛋白结构,不需要任何训练数据,这使得MORLD成为针对新药物靶点的理想工具。第二,MORLD不需要模型构建和培训程序,这使得没有建模专业知识的人也可以使用MORLD。第三,MORLD可以作为一种工具,在超大型复合库上补充虚拟筛选过程。最后,有一个公共服务器(http://morld.kaist.ac.kr),它易于使用,运行相对快速,可以使药物开发人员立即获得其目标蛋白的结果。

但模型中也有几个局限性需要解决。首先,由于模拟对接的固有局限性,更好的对接分数并不能保证更高的结合能力。此外,当目标的三维结构不可用时,MORLD可能不适用,例如内在无序的蛋白质和没有药物可结合位点的蛋白质。第二,MORLD的Q值是根据化合物的ECFP表示来计算的。然而,ECFP可能不能正确地表示配体的三维结构信息。第三,由于对MORLD的强化学习算法进行了训练,以选择Q值最高的动作,因此该模型倾向于设计有限数量的优化化合物。最后,由于MORLD是一个基于原子的模型,因此由于其组合性质,探索所有化学有效空间是很困难的。因此,当使用有限数量的事件来训练模型时,可以根据初始搜索方向获得许多不同的次优结果,特别是在新设计中。因此,一些试验可能产生比其他试验更合适的结构的分子。此外,由于除了添加或去除原子或键时的化学有效性之外,没有其他要求,而且SA和QED评分并不完美,因此该模型可能产生具有化学缺陷的子结构的分子。


代码

http://github.com/wsjeon92/morld

参考文献

Jeon, W., Kim, D.

Autonomous molecule generation using reinforcement learning and docking to develop potential novel inhibitors.

Sci Rep 10, 22104 (2020).

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-02-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智能生信 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档