前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | 使用Umol从序列预测蛋白质-配体复合物结构

Nat. Commun. | 使用Umol从序列预测蛋白质-配体复合物结构

作者头像
DrugAI
发布2024-07-17 15:30:18
920
发布2024-07-17 15:30:18
举报
文章被收录于专栏:DrugAI

DRUGAI

今天为大家介绍的是来自Frank Noe团队的一篇论文。蛋白质-配体对接是药物发现和开发中的常用工具,可以筛选出潜在的治疗物进行实验测试。然而,这需要高质量的蛋白质结构,通常蛋白质会被处理成完全或部分刚性的。作者开发了一种AI系统,可以直接从序列信息预测蛋白质-配体复合物的全原子灵活结构。作者发现传统的对接方法仍然更优越,但依赖于目标蛋白质的晶体结构。除了预测灵活的全原子结构外,预测的置信度指标(plDDT)还可以用于选择准确的预测结果以及区分强和弱结合物。Umol工具可在:https://github.com/patrickbryant1/Umol 获取。

将小分子对接到蛋白质靶点是评估新药和已知药物再定位的重要问题。然而,现有的对接方法有显著的局限性:(i) 需要高质量的蛋白质结构,因为蛋白质通常被处理为至少部分刚性。(ii) 尚未解决正确对接姿态的识别问题。(iii) 大多数评估是在蛋白质结合(holo)形式的结构上进行的,这限制了新配体的搜索,仅限于与已知配体具有相同结合模式的配体。一种能够从给定的蛋白质序列和配体的化学结构预测整个蛋白质-配体复合物结构的系统可以解决这些挑战。

最近,机器学习已应用于蛋白质-配体对接问题。然而,在已知目标区域或“口袋”时,这些系统尚未超过基于评分函数的经典方法。假设有与配体一致的结合(holo)形式的蛋白质结构并不合理。考虑使用ESMfold预测的结构时,使用当前最先进的方法,成功率(SR,配体≤RMSD 2 Å)降至在holo结构上的一半(20.3% vs 38.2%)。这表明纯蛋白质结构预测工具无法生成适合配体对接的结构。

基于发布日期而非结构相似性划分的评估集也是一个混淆因素。考虑训练期间未见过的受体时,成功率约为已见holo受体的一半(20.8%)。考虑未见结构和配体的化学有效性(键长和键角),某些方法的成功率可能从51%降至仅1%。在未见apo(未结合)结构上评估相同方法可能导致更低的性能。

蛋白质的灵活性对达到holo状态和成功的配体对接至关重要。最近,david baker团队开发了全原子版本的RoseTTAFold。RoseTTAFold All-Atom (RFAA)允许预测蛋白质与配体和其他生物分子的结合。在PoseBusters测试集上,蛋白质-配体预测的成功率为42%,但尚不清楚该网络在训练期间未见过的蛋白质上表现如何。这表明蛋白质-配体预测的挑战尚未解决。

这里,作者开发了一种AI方法,通过扩展AlphaFold2的EvoFormer,从序列信息预测蛋白质-配体复合物的结构。这个网络与RFAA相似,不同之处在于不包括3D轨迹,也不使用模板结构或额外的晶体配体数据作为输入或在训练期间使用。此外,当已知结合口袋时,作者提供了指定结合口袋的选项,这在靶向药物开发中常见。

模型部分

图1

作者在此开发了一种蛋白质-配体共折叠网络,作为迈向通用分子框架Umol的第一步(图1a)。从蛋白质序列、可选的蛋白质靶点位置(口袋)和配体SMILES开始,创建多个序列比对(MSA)和键矩阵。由此,在网络中生成特征,并产生一个3D结构。由于生成最终的蛋白质-配体复合物结构不需要任何结构信息,因此对蛋白质或配体的灵活性没有限制。

Umol在428种不同的蛋白质-配体复合物上的成功率

图 2

图2a显示了在428种不同的蛋白质-配体复合物上,11种蛋白质-配体对接方法以及Umol的成功率(SR,预测中配体RMSD ≤ 2Å的比例)。展示了Umol的两个不同版本,一个使用口袋信息(Umol-pocket),一个完全盲目(Umol)。Umol、NeuralPlexer1和RoseTTAFold All-Atom(RFAA)是唯一不需要原生蛋白质结构作为输入的方法。相比之下,Umol的成功率为18%,Umol-pocket为45%,NeuralPlexer1为24%,RFAA为42%。没有模板信息(类似结构)的RFAA成功率为8%。最好的方法是AutoDock Vina,成功率为52%,但需要原生结合蛋白质结构和目标区域作为输入。

为了看看是否可以克服原生结合蛋白结构的障碍,作者使用了AlphaFold2 (AF)。将AF与DiffDock结合使用,成功率达到21%。为了获得成功预测,预测的蛋白质口袋必须非常准确。成功模型的平均RMSD为0.91,而错误预测的RMSD略高于1 Å(1.23)。由于蛋白质结构是独立于配体预测的,因此事先不清楚给定的AF结构是否适合对接。

以2 Å配体RMSD(LRMSD)作为成功的标准是人为设定的。图2b显示了成功率(SR)与配体RMSD阈值的关系。Umol-pocket有很多复合物的RMSD刚好高于2 Å,这表明许多配体几乎处于它们的原生构型。在略高于2 Å(2.35 Å)时,Umol-pocket超过了所有其他方法,而在3 Å的阈值时,Umol的成功率为69%,Vina为58%。Umol-pocket在0.5 Å以下没有成功的复合物,但Vina和Gold有。这可能是因为这些方法使用了原生结构作为输入,导致误差接近0 Å,而在实际情况下这是不可能的。

药物设计中一个非常重要的方面是亲和力。图2e显示了45个与Umol训练集没有同源性的目标的亲和力(Kd)与Umol-pocket配体plDDT的关系。在配体plDDT超过70时,中位亲和力为30 nM,而在plDDT低于60时,亲和力超过500 nM。这表明可以根据配体plDDT以及配体位置的准确性来区分高亲和力和低亲和力的目标。在非常高的亲和力下(<10 nM,n = 13),配体plDDT与亲和力有很强的相关性(Pearson R = -0.77)。即使没有口袋信息,也可以区分亲和力(见BindingDB部分)。

图2d展示了Umol和Umol-pocket对训练集中同源性低于30%的结构重叠预测示例。Umol-pocket对蛋白质结构的预测非常好,但Umol并非所有蛋白质区域都完全准确。配体相对于蛋白质界面的定位在Umol和Umol-pocket中都很准确,这表明这两种方法都可以用来获得准确的预测。

Umol预测结构的置信度和化学有效性指标

图 3

为了确定是否可以根据Umol模型输出区分准确和不准确的预测,作者分析了配体RMSD与predicted lDDT(plDDT,图3)之间的关系。当plDDT >80时,Umol-pocket的成功率为72%,而plDDT 85时为80%,在plDDT <50时为1.2%。蛋白质口袋(所有距离任何配体原子10 Å以内的CB原子)的plDDT与lDDT的皮尔逊相关系数分别为0.81和0.78。

以前的AI方法生成的配体在化学上不合理。由于作者使用了RDKit,生成的配体在化学上是合理的。根据PoseBuster的配体标准,98%的Umol-pocket配体是有效的。作者还得出结论,蛋白质的整体预测精度很高,Umol-pocket的平均TM-score为0.96。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Bryant, P., Kelkar, A., Guljas, A., Clementi, C., & Noé, F. (2024). Structure prediction of protein-ligand complexes from sequence information with Umol. Nature Communications, 15(1), 4536.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档