前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Commun Biol|人工智能指导下的内在无序蛋白质的构象挖掘

Commun Biol|人工智能指导下的内在无序蛋白质的构象挖掘

作者头像
智药邦
发布2022-11-16 15:29:21
3300
发布2022-11-16 15:29:21
举报
文章被收录于专栏:智药邦

2022年6月20日,伊利诺伊大学芝加哥分校化学系的Huan-Xiang Zhou等人在Commun Biol发表文章,提出了旨在挖掘IDPs构象空间的生成性自动编码器。这项工作说明了人工智能在IDPs构象挖掘中的巨大潜力。

摘要

人工智能最近在预测蛋白质的三维结构方面取得了突破性进展。下一个前沿领域是内在无序蛋白质 (intrinsically disordered proteins , IDPs),它占蛋白质组的30%到50%,很容易产生广阔的构象空间。分子动力学 (MD) 模拟在对IDP构象进行采样方面很有希望,但需付出极高的计算成本。在这里,我们开发了生成性自动编码器,它从短MD模拟中学习并生成完整的构象组合。编码器将IDP构象表示为降维潜在空间中的矢量。训练数据集的平均矢量和协方差矩阵被计算出来,以定义一个多变量的高斯分布,从该分布中取样的矢量被送入一个解码器以生成新的构象。生成的构象集合涵盖了那些通过长MD模拟采样的构象,并通过小角度X射线散射曲线和核磁共振化学位移进行验证。这项工作说明了人工智能在IDPs构象挖掘中的巨大潜力。

前言

人工智能正在逐渐盖过传统的基于物理学的方法,在解决化学和物理学中一些最具挑战性的问题方面取得了突破性进展。例如,一个深度神经网络已经获得了小分子电子薛定谔方程的近乎精确的解决方案。最近的另一个突破是通过基于神经网络的方法Alphafold和RoseTTafold预测了蛋白质的三维结构。随着结构蛋白所面临的问题被这些和其他基于人工智能的方法所解决,一个新的前沿--内在无序蛋白质 (IDPs) 出现。IDPs没有采用明确的三维结构,而是很容易产生广阔的构象空间。在这里,我们报告了一个挖掘IDPs的构象空间的生成性人工智能模型的发展。

IDPs占蛋白质组的30%到50%,执行许多重要的细胞功能,包括信号和调节,并涉及许多人类疾病。IDPs的功能和疾病机制仍不清楚,这在很大程度上是因为我们缺乏对它们在各种状态下 (如孤立状态、聚集状态和与相互作用伙伴结合状态) 的构象组合的了解。

IDPs构象空间的广袤性带来了巨大的挑战。实验技术只限于探测构象空间的某些方面。例如,小角度X射线散射 (SAXS) 提供了关于IDPs的整体形状和大小的信息,而核磁共振特性,如二级化学位移,携带特定的残基信息,但仍然远远不能代表IDPs的自由度。分子动力学 (MD) 模拟为IDP提供了一种有吸引力的方法,每个构象都有一个原子表示,但目前可以实现的模拟时间 (直接决定构象取样的程度) 在很大程度上受限。如何在不占用计算时间的情况下详尽地覆盖IDPs的构象空间仍然是一个开放的问题。

在这里,我们提出了旨在挖掘IDPs构象空间的生成性自动编码器。我们的设计目标是准确地对整个构象空间进行采样,同时限制成本,也就是训练自动编码器所需的MD构象。由此产生的自动编码器的性能可与昂贵的MD模拟相媲美,并通过SAXS和化学位移数据得到验证。我们的工作为在各种功能状态下对IDPs进行建模打开了大门。

研究结果

我们首先建立了自动编码器,将IDP的构象表现为降维潜在空间中的矢量 (图1a)。自动编码器的训练包括从潜在向量中重建构象,并尽量减少与原始构象的偏差。训练数据集包括从短MD模拟中取样的构象。然后,我们将训练数据集的潜在向量建模为多变量高斯分布 (图1b)。通过从这些分布中取样重建,我们产生了IDPs的完整构象组合 (图1c)。

图1:生成性自动编码器的设计

a 自动编码器的结构图。b 用多变量高斯 (红色) 对训练集的潜在向量 (蓝色) 分布进行建模。c新构象的产生。

请注意,我们的目标是使用最少的训练数据--从尽可能短的MD模拟中取样--来建立自动编码器,以产生最准确的IDP的完整构象组合。为了实现这一目标,我们将训练数据集限制在从MD模拟的初始部分采样的构象上,并将后续部分仅用于测试自动编码器的准确性。

在降维空间中的表示

作为生成新构象的基础,我们首先降低了构象空间的维度。IDPs的原始构象是由重原子的笛卡尔坐标指定的 (对一些侧链进行了截断)。

用于训练和测试自动编码器的构型来自多个μs长的MD模拟。我们收集了95,000、140,000和145,000帧,分别为10ps间隔的Q15和20ps间隔的Aβ40和ChiZ,每个重复运行;重复运行的数量分别为2、4和12。每次运行的初始部分 (如10%) 被作为训练集,其余部分为测试集。自动编码器的准确性是通过测试构象和它们的重建之间的均方根偏差 (RMSDs) 来评估的。重建的RMSD结果见图2。

图2:从复制的MD运行中采样的训练集在不同大小下的平均重建RMSD

我们测试了自动编码器,其输入是二面角或距离矩阵而不是笛卡尔坐标。这些模型在重建中的表现比输入直角坐标的模型差很多 (补充说明1)。

潜在空间中的多变量高斯模型

IDPs的构象组合很广泛,很难建模。在潜在空间中表示构象的一个可能的重要好处是,由于维度的减少,潜在向量的分布将更加紧凑,因此更容易建模。为了评估这一期望,我们计算了潜在空间的二维子空间的直方图。

图3:潜在空间中 Aβ40 的直方图,由训练数据、测试数据和多元高斯计算得出

Q15和Aβ40在潜在空间的紧凑分布促使我们将其建模为多变量高斯。如图S3和图3所示,训练集的分布和它们的多变量高斯模型看起来非常相似。更重要的是,多变量高斯模型与测试集的分布也很重合。

自动编码器生成的Q15和Aβ40的构象

通过从潜在空间的多变量高斯取样并使用解码器重建构象,我们把自动编码器变成了一个生成模型。多变量高斯在训练自动编码器的同一数据集上进行了参数化。

然后,我们用稀释的测试集的最佳匹配RMSD的平均值作为衡量生成集的准确性。在生成的大小为1×的测试集中,MD run1和run2的平均最佳匹配RMSDs分别为3.59和3.58 Å。如图4a所示,一个测试构象和其生成的RMSD为3.58 Å的最佳匹配显示出非常相似的主干轨迹。

图4:自动编码器生成的Q15和Aβ40构象的最佳匹配RMSDs

自动编码器生成的ChiZ构象

我们首先使用一个类似的协议来训练和测试ChiZ的自动编码器在一个单一的MD运行 (run1)。

单个MD运行有可能在构象空间中挖掘出有限的区域,但是不同的MD运行所挖掘的区域可能会部分重叠,合并挖掘可能会产生一个在潜在空间中密集分布的集合。事实上,当我们结合ChiZ的12次MD运行的构象时,训练集和测试集的潜在空间的直方图都变得紧凑,除了一个 (即 (9,14) ) 非零对之外,都有一个单峰 (图5a)。训练和测试潜质向量的分布重叠得很好,而且也被组合训练集上的多变量高斯参数化了。对于所有的配对,训练与高斯、测试与高斯、训练与测试的KL分歧值都低于0.1 (表S1) ;即使对于 (9,14) 配对,训练与高斯的数值也只有0.079。

图5:通过结合ChiZ的MD运行来提高数据重叠和预测精度

训练参数和潜在空间参数的最佳选择

在补充说明3中,我们提出了不同的训练参数和潜在空间参数对自动编码器生成新构象的准确性的影响的额外数据。简而言之,对Q15、Aβ40和ChiZ所选择的训练量,分别为10%、20%和30%,对于模型收敛来说是足够的;额外的训练数据不会在模型精度上产生明显的提高,特别是考虑到我们对MD模拟的成本控制非常重视。我们选择0.75Nres作为潜在空间的维度。将潜在空间的维度增加10-30,对模型的准确性没有什么影响。

对生成的构象的进一步评估

为了正确评估自动编码器生成的构象,我们检查了测试集的多样性以及训练和测试集之间的相似性 (表S2)。我们计算了每个构象与稀释的测试集中所有其他构象的RMSDs。正如预期的那样,对于合并和进一步稀释的ChiZ测试集,平均配对RMSD进一步增加到19.23 Å。测试构象的多样性再次说明了生成接近它们的构象的挑战。

我们还更仔细地检查了与测试构象最匹配的生成的构象 (图4a、b和5b的插图)。正如已经提到的,测试构象和其生成的最佳匹配显示了形状和大小的整体相似性。然而,生成的构象有相当大的键长和键角违规。通过能量最小化的细化,基本上所有的键和角度都恢复到适当的值 (图6)。

图6:测试构象和它们在细化后生成的最佳匹配的比较

自动编码器生成的ChiZ构象组合的实验验证

为了客观地评估自动编码器生成的构象组合的质量,我们从它那里计算出可以通过实验测量的特性。这些包括SAXS轮廓和核磁共振化学位移。在图7中,我们将ChiZ的实验数据与从12次MD运行的组合测试集中收集的12,180个构象计算的结果,以及与从组合训练集上训练的自动编码器生成的12,180个构象计算的结果进行了比较。正如以前所报道的那样,MD模拟很好地再现了这两种类型的实验数据:在整个q (动量转移) 范围内,SAXS曲线有很好的一致性,平均绝对百分比误差 (MAPE) 为3.9%;同样,计算的二级化学位移也接近实验值,均方根误差 (RMSE) 为0.43ppm。生成的构象也很好地再现了实验的SAXS轮廓,MAPE为7.2%,验证了后者对ChiZ整体形状和大小的取样。

图7:通过实验SAXS和化学位移数据验证自动编码器为ChiZ生成的构象

讨论

我们已经开发了生成性自动编码器来挖掘IDPs的广泛构象空间。这些自动编码器不仅能以高保真度代表IDP在潜在空间的构象,以实现准确的重建,而且还能生成新的构象以填充构象空间。生成的集合包含了在长MD模拟中采样的所有构象的密切匹配,但计算时间可以忽略不计。例如,从Aβ40的MD模拟中取样100,000个构象 (间隔20ps),即使使用GPU加速,也需要80天,而我们的自动编码器在12秒内就能生成同样数量的构象。在ChiZ的例子中,自动编码器生成的构象甚至比用几个力场进行的MD模拟产生更好的SAXS轮廓和化学位移预测。

我们的生成式自动编码器具有变异式自动编码器的味道,但更直观。在训练过程中,我们没有像变分自编码器那样在训练过程中优化潜在空间中的高斯,我们只优化重构,然后使用训练集的潜在向量计算均值向量和协方差矩阵,直接用于定义多元高斯产生新的构象。

这里设计的生成性自动编码器是用来挖掘孤立的IDPs的构象空间。此处展示的这种方法的强大功能表明,它可以扩展到研究处于更复杂功能状态的 IDP,例如当与相互作用伙伴(靶蛋白或膜)结合或相关时,或在聚集时。

基于人工智能的模型,如生成式自动编码器,可能为解决具有挑战性的IDP构象挖掘问题打开大门。

参考资料

Gupta, A., Dey, S., Hicks, A. et al. Artificial intelligence guided conformational mining of intrinsically disordered proteins. Commun Biol 5, 610 (2022). https://doi.org/10.1038/s42003-022-03562-y

--------- End ---------

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 智药邦 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档