前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >J. Chem. Theory Comput. | 基于Transformer的生成模型探索蛋白质-蛋白质复合物的构象系综

J. Chem. Theory Comput. | 基于Transformer的生成模型探索蛋白质-蛋白质复合物的构象系综

作者头像
DrugAI
发布2024-06-04 19:09:12
1540
发布2024-06-04 19:09:12
举报
文章被收录于专栏:DrugAIDrugAI

DRUGAI

蛋白质-蛋白质相互作用(PPIs)是许多蛋白质功能的基础,了解蛋白质-蛋白质相互作用的接触和构象变化对于将蛋白质结构与生物功能联系起来至关重要。虽然难以通过实验检测,但分子动力学(MD)模拟被广泛用于研究蛋白质-蛋白质复合物的构象组合和动力学,但在采样效率和计算成本方面存在很大的局限性。近日发表在Journal of Chemical Theory and Computation的论文,“Exploring the conformational ensembles of protein-protein complex with transformer-based generative model”,根据分子动力学模拟获得的蛋白质-蛋白质复合物构象系综训练了一个基于Transformer的生成神经网络,以直接生成具有物理真实性的新蛋白质-蛋白质复合物构象。研究人员展示了如何使用基于Transformer架构的深度学习模型,通过 MD 模拟探索蛋白质-蛋白质复合物的构象系综。结果表明,学习到的潜在空间可用于生成蛋白质-蛋白质复合物的未采样构象,以获得补充原有构象的新构象,可作为分析和增强蛋白质-蛋白质复合物构象的探索工具。

背景

蛋白质是生命的基本组成部分,几乎所有蛋白质都通过与其他蛋白质、肽、核苷酸和小分子等的非共价相互作用来执行其功能。蛋白质-蛋白质相互作用(PPIs)在许多生物过程中起着关键作用。理解蛋白质-蛋白质复合物的三维结构有助于理解许多生物过程和分子机制,为药物和蛋白质设计提供有用的见解。虽然通过X射线晶体学和冷冻电子显微镜(cryo-EM)等实验技术确定的蛋白质-蛋白质复合物结构数量在增加,但获得这些实验结构仍然非常耗时且成本高昂,高分辨率结构的确定和动态机制的测量在实验上仍然具有挑战性。基于有限实验数据的蛋白质-蛋白质复合物的计算建模是对有限实验方法的有益补充和替代。传统方法包括蛋白质-蛋白质对接和同源建模。最近,深度学习(DL)在计算生物学领域取得了前所未有的进展,尤其是AlphaFold2、AlphaFold-Multimer和RoseTTAFold在蛋白质结构和蛋白质-蛋白质复合物预测方面的各种应用。不幸的是,实验结构通常只能捕捉到低能状态下的静态构象。尽管分子建模或DL已经被应用于预测蛋白质-蛋白质复合物结构,但它们在稳定功能构象、蛋白质结合动力学和构象空间采样方面仍然具有挑战性。

分子动力学模拟在研究蛋白质和蛋白质-蛋白质复合物的构象和动力学方面有广泛应用。MD通过从生物分子系统的潜在构象中进行采样,确定在构象空间中最有利的亚空间。这些模拟在硬件和软件的发展,如图形处理单元(GPU)、AMBER、GROMACS和OpenMM的推动下,受益良多。尽管取得了这些进展,MD模拟在生成动态构象系综方面、计算成本和高效采样构象系综方面仍然具有挑战性。蛋白质-蛋白质结合亲和力通常更强,结合和解离过程往往需要更长的时间尺度。尽管已经开发了许多MD模拟和增强采样方法用于PPIs建模,但蛋白质-蛋白质复合物的构象系综仍然大部分未被探索。

最近,深度学习和生成性人工智能在计算生物学领域取得了前所未有的进展。生成型深度学习在蛋白质构象采样方面取得了成功,如长短期记忆(LSTM)、自编码器(AEs)、变分自编码器(VAEs)、生成对抗网络(GANs)、基于Score的模型、基于energy的模型、Transformer和主动学习。深度生成模型的训练依赖于从分子动力学模拟中提取的构象。旨在学习分子动力学模拟的数据分布,用于生成新的真实蛋白质构象系综。

本研究中,作者提出了一种基于Transformer的生成框架,以加速蛋白质-蛋白质复合物构象系综的采样和探索。首先,对barnase-barstar复合物的晶体结构进行了100纳秒的MD生产模拟。重复迭代以获得符合特定标准的六条轨迹。然后将轨迹数据分割成300个构象系综作为训练集。作者使用基于Transformer的生成神经网络(AlphaPPImd)来学习训练集中蛋白质-蛋白质复合物的三维构象分布。AlphaPPImd能够直接生成新的蛋白质-蛋白质复合物构象,并生成超出MD时间尺度的构象。对生成的蛋白质-蛋白质复合物构象模型的评分结果显示,大多数生成的构象模型是可接受的。构象系综分析表明,学习到的潜在空间可以用于生成未采样的蛋白质-蛋白质复合物构象。作者可视化了模型的注意力机制捕捉到的蛋白质-蛋白质复合物中的关键氨基酸残基和残基对。结果表明,深度生成模型从多条MD轨迹中学习到了影响蛋白质-蛋白质复合物构象和动力学机制的关键残基,并提供了蛋白质-蛋白质结合的机制洞见。生成式深度学习可以作为增强蛋白质-蛋白质复合物构象系综探索和关键氨基酸残基分析的可选工具之一。

材料与方法

分子动力学模拟

使用barnase-barstar复合物的晶体结构(PDB ID:1BRS)来构建模拟系统。使用AmberTools2023准备拓扑和坐标文件。然后使用OpenMM 7.7进行六次独立的100 ns MD模拟。

AlphaPPImd模型架构

基于Transformer的AlphaPPImd框架。首先,准备了蛋白质-蛋白质复合物的MD轨迹。然后,为了嵌入蛋白质-蛋白质复合物的每一帧,构建了两个编码器分别嵌入复合物每条链的轨迹特征。解释性是基于注意力模型的关键,作者计算了蛋白质-蛋白质复合物构象系综中残基对之间的权重。最后,为了能够识别复合物并重建蛋白质-蛋白质构象的三维结构,通过解码器生成的蛋白质-蛋白质三维结构按链和氨基酸序列进行了对齐和复合物结构优化。

图1

首先,对蛋白质-蛋白质复合物的MD轨迹进行预处理,以获取两条链的序列长度、序列组成和氨基酸残基类型。计算轨迹中选定残基的扭转角𝜙和𝜓,以4个盆地中的占据情况字符串表示构象状态。其次,嵌入模块将两个位置嵌入添加到氨基酸序列嵌入中,以生成帧嵌入。这两个位置嵌入分别关联基于basin编码帧的basins与其在蛋白质序列中的相对位置,以及基于basin编码帧的basins与每个位置上的氨基酸类型。然后,通过嵌入模块生成的蛋白质-蛋白质复合物MD轨迹的每个帧嵌入输入到AlphaPPImd的编码器模块中,编码器模块包含多头自注意力机制、注意力分数和特征优化模块。为了表示蛋白质-蛋白质复合物的构象信息,我们使用两个编码器模块来捕捉每条链的构象状态。接下来,AlphaPPImd的解码器模块旨在学习和捕捉不同类型和位置的残基对蛋白质-蛋白质构象的协同贡献。解码器模块主要由掩码多头自注意力层、层归一化层和前馈层组成,然后应用dropout技术以增强鲁棒性。最后,预测模块迭代生成下一个帧的盆地,随后使用Modeller(v10.2)从扩展的盆地编码轨迹重建蛋白质-蛋白质复合物构象模型。

评估指标

本研究使用以下指标来评估模型性能:准确率(accuracy)、均方根偏差(RMSD)和蛋白质-蛋白质复合物模型的质量度量(DockQ)和新颖性。

均方根偏差(RMSD):RMSD用于量化训练和解码的蛋白质-蛋白质复合物构象之间的差异。当比较生成的蛋白质-蛋白质复合物的构象与参考晶体结构时,RMSD值越低,生成的构象越准确;一般来说,RMSD < 2 Å被认为非常接近晶体结构构象.

DockQ: 使用DockQ评分评估生成的蛋白质-蛋白质复合物构象的准确性,DockQ是计算结构生物学领域广泛使用的蛋白质-蛋白质模型质量评分。DockQ评分介于0到1之间,基于蛋白质相互作用预测关键评估(CAPRI)中使用的所有评估标准。DockQ评分分类如下:“不正确”(0.00 ≤ DockQ < 0.23)、“可接受质量”(0.23 ≤ DockQ < 0.49)、“中等质量”(0.49 ≤ DockQ < 0.80)和“高质量”(DockQ ≥ 0.80)。

新颖性(Novelty):如果生成的正确构象(DockQ ≥ 0.23)与训练集中的MD构象之间的骨架欧氏距离 > 2,则这些生成的正确构象被认为是新颖的。

结果与讨论

PPI 复合物的 MD 轨迹表示

训练集中MD轨迹的barnase-barstar复合物由两条不同的链和197个残基组成(barnase链:108个残基,barstar链:89个残基),因此在轨迹的每个时间步长中只能估算195对(barnase链:107对,barstar链:88对)Φ、Ψ二面角。图2显示了本研究中使用的MD轨迹集合中的barnase和barstar链的扭转信息Ramachandran图,该图包含1000帧。图中的每个点代表轨迹中某一帧中某个残基的骨架扭转状态。

图 2

图中的点通过KMeans算法被分类为4个簇(basins)。记录并存储每个簇的质心,用于从盆地编码的扭转状态重建barnase-barstar复合物的完整原子模型。然后,将轨迹的每一帧转换为一个字符向量,该字符向量的字母表由4个符号组成,对应于4个簇。对于barnase-barstar复合物的MD轨迹数据集中的所有300个集合,进行了类似的表示过程。

模型性能和构象重构

模型使用barnase-barstar复合物的300个系综进行训练,每个系综包含1000帧。训练和验证集中basin编码轨迹得到的barnase-barstar复合物Transformer模型的准确率和损失如图3所示。尽管AlphaPPImd很快达到了稳定性能,为了进一步优化Transformer模型并丰富模型学习到的MD构象分布,作者使用了多条MD轨迹作为数据集。通过在帧预测模块中引入熵,可以避免在后续扩展周期中序列保持不变的快速收敛。

图 3

从测试集的轨迹中随机取一个帧作为输入,并由训练好的AlphaPPImd框架生成100个basin编码帧。生成的扩展basin编码帧通过Modeller重建以获得构象模型。结果显示了模型在成功采样和扩展构象方面的能力。参考结构的整体构象在相应生成的构象中得到了保留。结果表明Modeller正确执行了二面角约束。

评估生成的构象系综

从barnase-barstar复合物的MD轨迹中随机选择了1000帧作为输入,通过模型生成了1000个新的basin编码帧,这些帧随后被重建为barnase-barstar复合物的新模型。图4a显示了从barnase-barstar复合物的MD轨迹中随机选择的1000帧构象的RMSD分布,图4b显示了由AlphaPPImd生成的1000个barnase-barstar复合物构象的RMSD分布。结果表明,AlphaPPImd框架生成的新蛋白质-蛋白质复合物构象模型大多非常接近晶体结构。我们从AlphaPPImd模型生成的1000个barnase-barstar复合物构象模型中选择了四个RMSD接近2 Å的代表性构象。然后将它们与晶体结构进行重叠,并计算其RMSD和DockQ分数。随着RMSD变小,barnase-barstar复合物生成构象的DockQ分数变大,这意味着AlphaPPImd生成的新蛋白质-蛋白质复合物构象模型更接近参考晶体结构,具有更高的准确性(RMSD < 2 Å)和可接受性(DockQ ≥ 0.23)。由深度生成模型生成的大多数蛋白质-蛋白质复合物构象模型是可接受的(RMSD < 2 Å&DockQ ≥ 0.23)。比较蛋白质-蛋白质复合物MD的构象系综与生成的蛋白质-蛋白质复合物的构象系综时,生成的蛋白质-蛋白质复合物的RMSD和DockQ分数较低。一个可能的原因是basin编码帧是一种简化的文本表示。

图 4

构象空间分析

主成分分析(PCA)广泛用于理解生物系统的动态行为。将系综中构象模型的每一帧与初始晶体结构重叠。然后计算每个构象模型的特征,以便在二维空间中投影。通过ProDy对从barnase-barstar复合物的MD轨迹中随机选择的1000帧构象和由AlphaPPImd模型生成的1000个构象结构进行了PCA分析。如图5a所示。过滤掉DockQ < 0.23的AlphaPPImd模型生成的1000帧构象模型后,使用从MD轨迹中提取的构象模型进行了PCA分析。MD系综和采样系综共享相同的构象空间。深度生成模型的采样系综覆盖了MD轨迹系综,并且采样了超出MD时间尺度的新构象。尽管深度生成模型生成的构象中有一些是不正确的(DockQ < 0.23),但它生成的大多数是可接受的(DockQ ≥ 0.23)且多样的构象。生成的不正确构象与生成的正确构象之间进行了比较,构象模型的可视化显示不正确的构象在两个链之间的距离更大,且缺乏紧密的界面。蛋白质-蛋白质相互作用非常复杂,准确预测蛋白质-蛋白质复合物的构象具有挑战性。深度生成模型可能无法完全捕捉蛋白质-蛋白质复合物景观的复杂性,导致不正确的构象采样。深度生成模型高度依赖于训练数据,采样构象的方法会影响生成构象的多样性和质量。如果训练数据集偏向某些蛋白质-蛋白质复合物的构象,或稀有构象可能导致生成不正确的构象模型。此外,蛋白质-蛋白质复合物的MD模拟可以通过其构象生成模型进行补充,以增强对蛋白质-蛋白质复合物系统构象动态的理解。

图 5

可解释性分析

了解对蛋白质-蛋白质复合物的构象和动态机制至关重要的氨基酸残基和残基对,是理解许多蛋白质功能的基础。AlphaPPImd的注意力机制捕获了关键残基之间的注意力权重,并提供了对蛋白质-蛋白质结合的机制洞见。注意力机制根据其在蛋白质-蛋白质复合物构象变化中的重要性,为不同残基对分配权重。具有较高注意力权重的残基对表示其相互作用/效应更强或更频繁,这对于稳定蛋白质-蛋白质复合物至关重要。蛋白质-蛋白质相互作用集中在蛋白质-蛋白质界面,因此位于蛋白质-蛋白质界面的残基对往往具有较高的注意力权重。在蛋白质-蛋白质界面处具有高注意力权重的残基对对于蛋白质之间的特异性识别和结合至关重要,这对于理解蛋白质-蛋白质复合物的稳定性和特异性至关重要。通过注意力权重,作者探索了对barnase-barstar复合物的动态和构象产生影响的两个链之间的关键残基和残基对。结果表明,AlphaPPImd模型捕获的关键残基主要位于蛋白质-蛋白质相互作用界面、环和α-螺旋上。具有高注意力权重的残基对通常对应于经历显著构象变化或涉及关键动态过程的区域。这意味着深度生成模型从barnase-barstar复合物的MD轨迹中捕获了影响其动态和构象的关键残基,可以用来补充MD结果。

图 6

接触图是蛋白质结构中残基相互作用的二维二进制矩阵表示。距离图是蛋白质结构中所有可能残基对之间距离的二维矩阵表示,其中残基-残基距离显示为颜色渐变。距离图展示了蛋白质-蛋白质复合物中残基之间的成对距离。两个蛋白质之间的结合界面通常以相互作用残基之间的短距离簇为特征。残基之间的较短距离意味着更强的相互作用。作者计算了barnase-barstar复合物的接触图和距离图。观察到大多数接触/距离图中显示的两个链之间的关键残基对与具有较高注意力权重的残基对相对应。将蛋白质-蛋白质复合物的MD轨迹的连续接触/距离图作为表示形式来训练深度生成模型以生成新构象模型,可能产生更高分辨率的蛋白质-蛋白质复合物模型。

独立的PPI 复合物构象系综探索

作者选择了MDM2-p53蛋白质相互作用进行独立验证。MDM2-p53复合物的晶体结构(PDB ID: 1YCR)用于模拟系统构建。模拟时间步长设置为2 fs,然后进行了十次独立的30 ns MD模型。所有模拟均由OpenMM 7.7执行。MDM2-p53复合物的MD轨迹被随机选择了1000帧输入到模型中,以生成1000个新的盆地编码帧,然后重建成MDM2-p53复合物的新构象模型。作者从MDM2-p53复合物的1000个生成的构象模型中随机选择了一个与晶体结构接近2 Å的代表性构象。然后,通过将其与晶体结构重叠,计算了RMSD和DockQ分数。AlphaPPImd模型生成的1000帧构象模型经过DockQ < 0.23 (“错误”)筛选,然后使用MDM2-p53复合物的MD轨迹中提取的构象模型进行PCA分析。如图7c所示,不同的颜色代表不同的注意力权重。注意力图显示了MDM2-p53复合物的动态和构象中残基对的贡献。作者在MDM2-p53复合物的晶体结构上展示了具有较高注意力权重的残基。结果显示,AlphaPPImd模型捕获的关键残基主要位于MDM2-p53相互作用界面上。独立验证证明了模型对其他蛋白质-蛋白质复合物的泛化能力。

图 7

结论

分子动力学 (MD) 模拟广泛用于研究蛋白质-蛋白质复合物的构象系综和动力学,但在采样效率和计算成本方面存在显著的限制。深度生成模型在计算生物学领域取得了前所未有的进展。生成式深度学习已经被广泛应用于蛋白质构象采样。然而,利用深度生成模型探索蛋白质-蛋白质复合物的构象组的应用仍然很稀缺。

研究中,作者提出了一种通过结合基于Transformer的生成模型与MD模拟轨迹来加速蛋白质-蛋白质复合物构象采样的策略,该策略可以扩展传统MD模拟难以发现的蛋白质-蛋白质物理状态。AlphaPPImd能够生成超出MD时间尺度的构象。对生成的蛋白质-蛋白质复合物构象模型的评分结果显示,大多数生成的构象模型是可接受的。构象系综分析表明,学习到的潜在空间可以用于生成未采样的蛋白质-蛋白质复合物构象。注意力机制捕获到的较高权重的残基和残基对进行了可视化。深度生成模型从多条MD轨迹中学习到了影响蛋白质-蛋白质复合物构象和动力学机制的关键残基,并提供了蛋白质-蛋白质结合的机制洞见。尽管在生成的构象中存在一些错误的模型,但生成了更多多样化的构象。深度生成模型生成了许多可接受的蛋白质-蛋白质复合物构象模型,但其质量较MD的物理构象低。将蛋白质-蛋白质复合物MD轨迹的连续接触/距离图作为输入或条件来训练深度生成模型,可能会生成更高分辨率的蛋白质-蛋白质复合物构象模型。

未来,可以结合蛋白质-蛋白质复合物的丰富构象信息、蛋白质-蛋白质相互作用/结合亲和力预测、PPI结合位点预测、PPI调节剂相互作用预测以及PPI调节剂的生成设计,以加速PPI靶点的研究和调节剂的设计/筛选。

参考资料

Jianmin Wang, Xun Wang, Yanyi Chu, Chunyan Li, Xue Li, Xiangyu Meng, Yitian Fang, Kyoung Tai No, Jiashun Mao, Xiangxiang Zeng. "Exploring the conformational ensembles of protein-protein complex with transformer-based generative model." Journal of Chemical Theory and Computation.

https://doi.org/10.1021/acs.jctc.4c00255

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-05-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档