前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun.| 基于Rosetta、AlphaFold和质谱共价标记进行蛋白质复合物预测

Nat. Commun.| 基于Rosetta、AlphaFold和质谱共价标记进行蛋白质复合物预测

作者头像
DrugAI
发布2023-02-17 11:03:34
4200
发布2023-02-17 11:03:34
举报
文章被收录于专栏:DrugAI

作者 | 杨千立 审稿 | 陈梓豪

此次为大家分享的是来自Nature Communiations 上的一篇题为”Protein complex prediction using Rosetta,AlphaFold, and mass spectrometry covalent labeling” 的文章,来自俄亥俄州立大学化学与生物化学系。

共价标记 (CL) 结合质谱法可用作研究和确定蛋白质-蛋白质复合物结构特性的分析工具。然而,这些实验的数据很少,并不能明确地阐明蛋白质结构。因此需要计算算法从 CL 数据中推断结构。在这项工作中,作者提出了一种混合方法,该方法通过 Rosetta 中的 CL 引导蛋白质-蛋白质对接将 AlphaFold 生成的蛋白质复合亚基模型与差异 CL 数据相结合。在基准集中,包含 CL 数据的 5/5 复合物的最佳得分模型的 RMSD(均方根偏差)低于 3.6 Å,而只有 1/5 复合物没有 CL 才能达到相同的质量数据。

介绍

质谱 (MS) 是一种通用的分析方法,已成为结构生物学中的重要工具,能够探测蛋白质组装体的结构和动力学。蛋白质-蛋白质复合物在许多重要的生物和细胞过程中处于中心位置,这使得它们的结构解析变得很重要。超过 182,000 种蛋白质结构已被确定并存档在蛋白质数据库 (PDB) 中,其中约 114,000 种是蛋白质-蛋白质复合物。这些高分辨率蛋白质结构可以使用核磁共振 (NMR) 、低温电子显微镜以及 X 射线晶体学等技术获得。然而,由于上述技术在可接受的系统尺寸、所需的样品浓度和过度的样品构象异质性等方面的限制,并不总是可以获得原子分辨率的结构。

共价标记通过使用共价结合的特异性或非特异性试剂暴露溶剂可及的氨基酸侧链来探测蛋白质结构。对标记试剂的反应性差异可以区分暴露的和掩埋的残基,以及在蛋白质复合物的情况下位于相互作用域表面的残基。

作为实验方法的替代方法,现代计算方法在准确预测和建模蛋白质三级结构方面取得了巨大成功。最近发布的AlphaFold2引发了计算蛋白质建模准确性的革命。AlphaFold-Multimer 于 2021 年发布,使用 AF2 模型,但经过训练可以从多条链的序列中预测多聚体复合物。同样,传统的蛋白质-蛋白质对接算法可用于分析和预测复合物模型。在蛋白质-蛋白质对接中,单体结构(可以通过多种方式获得)用作输入,预测复合物的结构,具有不同亚基的有利方向。

尽管 AF2 已被证明是一种出色的革命性蛋白质结构预测方法,但仍然存在局限性,尤其是对于蛋白质复合物。共价标记有可能帮助克服其中一些限制,而Rosetta特别适合开发将标记数据作为附加评分项的混合方法。在这里,我们使用 RosettaDock来组装使用 AF2 生成的蛋白质复合物亚基,并使用共价标记数据来改进蛋白质复合物结构预测。

这项研究中,我们开发了计算框架,在最先进的方法(AlphaFold-Multimer 和 Rosetta)表现不佳的情况下,在蛋白质复合物建模中使用共价标记数据。我们提出了一个评分项,该评分项依赖于从 HRF、DEPC 或 NHSA 实验中获得的差异共价标记数据,当与 Rosetta 评分函数结合使用时,很容易选择与实验确定的结构一致的计算模型。我们首先观察到差异修饰率与蛋白质复合物内亚基间残基距离之间的相关性,这是基于我们的结构假设,即界面残基在复合物形成后溶剂可及性会发生更大的变化。接下来,我们开发了一个协议,在 5 个复合物的基准中,其中 AF2 用于生成用作对接模拟输入的蛋白质亚基结构。

图1 | 图解描述了作者的方法。

结果

差异共价标记与结合界面残基接近度的相关性

我们假设差异共价标记数据可用于确定哪些残基可能位于蛋白质复合物的结合界面。如果这些残基在作为复合物的一部分时位于结合界面,则在结合时,这些残基的侧链会被掩埋并且仅与相邻结合亚基的相邻残基相互作用,从而减少溶剂相互作用的次数和发生相互作用的可能性被标记的残留物。在这种情况下,由于这些区域中溶剂可及性的巨大变化,基于这个假设,人们会期望观察到复合物未结合和结合状态之间界面残基修饰频率的巨大变化。

为了检验提出的假设,我们使用了一组基准蛋白质复合物,这些蛋白质复合物具有可公开访问的差异标记数据和天然晶体结构。为了建立与实验数据的假设关系的有效性,使用这些复合物的天然晶体结构来分析残基与界面的接近度(使用残基间距离)作为单体与复合物中修饰率的函数。我们假设在检查每个含有标记残基的复合物的所有亚基并发现未结合的平均 RMSD 后,复合物形成时不会发生大规模构象变化。为了量化未绑定/绑定状态之间发生的修改变化量,修改变化是根据每个状态的修改率/范围计算的,正值越大表明修改的减少越显着未绑定到绑定状态。我们假设从未结合状态到结合状态的修饰减少如此之多可能表明界面上有残留物。在所有三个复合物中观察到的标记残基的最大修饰变化为 80%,平均变化为 18%。为了分离修饰变化较大的残基,我们只考虑了在未结合/结合状态之间至少有 40% 的修饰变化的残基。在基准集中所有复合物的总共 78 个标记残基中,其中 38 个位于界面(距离 10 Å)。界面内残基平均修饰率为38.59%,界面外残基平均修饰率为-0.04%。我们首先使用此标准将原生结构与实验数据进行比较。图 2a列出了界面处和界面外修饰百分比大于或等于 40% 的标记残基的数量。对于所有三个复合物,发现大多数修饰变化大于或等于 40% 的标记残基位于复合物的结合界面,所有指定的残基都位于两个复合物的界面。两个例外是残基 P322 和 M325,它们位于肌动蛋白/gs1 复合物肌动蛋白部分的两个 α-螺旋之间的连接环区域,靠近界面。它们与界面的外围位置可能是观察到的大修改变化的原因,或者可能是由于绑定到 gs1 时可能导致的局部结构变化。在我们的基准测试中,91% 的修饰变化大于或等于 40% 的标记残基接近蛋白质-蛋白质界面,导致 9% 的假阳性率在可接受的公差范围内。这个小的初步分析支持我们的假设,并表明共价标记可用于根据标记的大变化来区分特定的界面残基。

图 2. 量化修饰变化与界面接近度之间的关系。

此外,我们假设在比较未结合和结合状态时,特定残基与结合界面的距离越大,溶剂可及性变化就越小。出于这个原因,我们希望复合体的未绑定/绑定状态之间的修改变化较小。将所有三个复合物的所有标记数据与这些标记残基的界面距离结合起来,可以进行更全面的分析(图2c)。在修饰变化(实验数据,y 轴)和标记残基的界面距离(天然结构,x 轴)之间观察到 1.5 的归一化均方根误差 (NRMSE)。标记残基与结合形式的其他亚基之间的较大距离与通常较小的修饰变化相关。观察到的这种线性相关性类似于之前比较溶剂暴露指标(溶剂可及表面积和相邻计数)和共价标记的工作。我们使用这种相关性来预测任何结构模型的预期修改变化(通过计算到界面的距离并使用拟合线)。斜率和截距的线性参数(图 2c)被纳入我们的共价标记评分术语中,如方法中所述。

使用共价标记数据进行结构预测

RosettaDock Interface score (Isc)考虑了绑定界面上的交互,并且可以补充额外的分数项来预测更多接近原生姿势。在这里,我们旨在探索共价标记MS数据是否可以有意义地提高模型质量。由于AlphaFold2 (AF2) 对单体预测的准确性较高,AF2 生成的模型用于向 RosettaDock 提供输入,并使用基于共价标记的评分项对建模蛋白质复合物的寡聚结构进行重新评分并预测天然结构。

从相关性中获得的参数,用于模拟标记残基的预测修饰变化。对于建模复合物中的每个标记残基,界面距离用于计算预测的修饰变化。然后计算实验观察到的和预测的修改变化之间的差异,并将其输入到一个 S 形惩罚项中,该惩罚项对与实验数据有较大差异的残基进行惩罚。然后将模型中每个标记残基的惩罚函数得分相加,并在一组的所有模型中进行归一化。然后对共价标记得分项的归一化得分进行加权并添加到 Isc 中以形成共价标记得分。在第一项研究中,我们重新对接了天然晶体结构,Rosetta 对 4/5 复合物进行了准确预测,当在评分函数中包含共价标记数据时,5/5 复合物具有准确的预测,虽然这些数据很有希望,但初步对接研究需要复杂状态下亚基结构的晶体学信息。

为了模拟更真实的情况,我们随后使用 AF2 生成复合体的成分(亚基或亚复合体),然后将其输入到对接模拟中。排名靠前的 AF2 模型在天然结构方面都是准确的。如前所述,通过将我们的方法产生的共价标记评分项与 Isc 相结合,使用共价标记数据对停靠集进行评分。不使用共价标记数据的分数与 RMSD 图如图 3a所示,只有 1/5 的对接结构组具有 RMSD 小于 5 Å 的得分最高的模型。图 3b显示了使用我们的共价标记分数而不是 Isc 的图 3a中的对接集的结果。使用我们的分数,5/5 的集合具有得分最高的模型,其 RMSD 低于 3.6 Å。图 3c显示了每个对接集的得分最高的模型,其中包含与天然晶体结构对齐的共价标记得分项。

图 3. 使用 AlphaFold2 模型作为对接输入,为基准集中每个复合体生成的 10,000 个对接模型的晶体结构得分与 RMSD。

对其他指标的评估进一步证明了在评分中包括共价标记的好处。如表 1所示,在添加 CL 数据后观察到 TM 分数和 DockQ 分数有所改善。TM-score 分析结构之间的拓扑相似性,DockQ是用于评估蛋白质-蛋白质对接数据的质量度量。当在评分中包含共价标记数据时,平均 TM 分数从 0.70 提高到 0.84(高倍相似性的进一步提高),平均 DockQ 分数从 0.21(不正确的结构)提高到 0.50(中等质量结构)。所有得分最高的模型的 TM 分数和 DockQ 分数要么保持不变,要么随着实验数据的增加而提高。这些结果表明,残基共价标记修饰中包含的信息确实可以促进区分原生和非原生姿势。

表1|是否具有共价标记数据的得分最高的模型的平均度量分析

作为与最先进方法的比较,我们还使用 AlphaFold-Multimer 从我们的基准集中预测复合物的完整结构,而不包括作为同系物的天然结构。图 3d显示生成的 AlphaFold-Multimer 模型与复合物的本机结构对齐。基准集中只有 2/5 的复合物被准确预测。有趣的是,对于 β-2-微球蛋白同源二聚体,AlphaFold-Multimer 在其排名靠前的模型中预测了准确的单个链(两条链的 RMSD 均为 1.6 Å),但未能准确预测完整的复合体。这可能是存在于结合界面边缘的环区域(S11-N21 和 F56-W59)的结果,这可能会阻碍 AlphaFold-Multimer 正确定位亚基的能力。包含 CL 数据(带有位于这些环区域中的标记残基 H13、K19 和 K58)提供了可能有助于克服错误预测的结构见解。

总结与讨论

稀疏的实验数据可以增强现有计算技术的有效性。在当前的这项研究中,我们提出了一种混合技术,该技术结合了最先进的计算方法(AlphaFold 和 RosettaDock)与共价标记质谱数据,以解决计算工具无法准确模拟复合物的情况。共价标记试剂根据溶剂可及性等特征修饰残基,我们已经证明,共价标记实验中残基修饰的变化可用于确定这些残基与蛋白质复合物内结合界面的可能接近程度(图 2)。随着复合物未结合/结合状态之间标记残基的修饰变化增加,它更有可能位于结合界面。实验修饰变化与亚基间距离之间的关系用于预测模型化残基的修饰变化。我们证明了包含我们的共价标记分数项的 RosettaDock 可以使用 AF 未绑定结构作为输入来预测我们基准集中所有复合物的准确模型。当我们的评分项被包括在内时,模型质量有了很大的提高。例如,得分最高的模型的RMSD对于肌动蛋白/gs1 从 11.2 Å 提高到 1.6 Å,对于 β-2-微球蛋白从 10.1 Å 提高到 3.2 Å(图 3a,b)。这表明实验共价标记值中包含的信息可以改善 RosettaDock 中的评分和模型选择。对于具有更大灵活性且更有可能经历诱导结构变化的蛋白质系统,由于我们的方法假设结合时不会发生大的结构变化,因此这种方法可能不合适。

未来的工作将包括增加标记蛋白质的数量、寡聚状态和结构类型,以及使用的共价标记试剂的类型,以更全面地测试共价标记数据阐明蛋白质复杂结构的能力。此外,由于更大的序列和残基类型覆盖率,使用多种正交标记技术研究单个蛋白质复合物可能是潜在最大化从共价标记实验中获得的结构信息的有前途的途径。在这项研究中,我们专门使用差异共价标记数据,因为它提供了最准确的结构信息。然而,许多标记实验只产生非差异数据集。在未来的工作中,我们将专注于开发利用这些数据集进行复杂预测的计算工具。此外,我们计划探索将其他类型的互补实验 MS 数据与共价标记数据相结合。

方法

文章中有关的数学公式定义、推导在该部分中,感兴趣的朋友可以访问原文进一步学习。

参考资料

Drake, Z.C., Seffernick, J.T. & Lindert, S. Protein complex prediction using Rosetta, AlphaFold, and mass spectrometry covalent labeling. Nat Commun 13, 7846 (2022).

https://doi.org/10.1038/s41467-022-35593-8

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-01-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档