前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICML 2024 | SurfPro:基于连续表面的功能性蛋白质设计

ICML 2024 | SurfPro:基于连续表面的功能性蛋白质设计

作者头像
DrugAI
发布2024-07-16 15:03:38
870
发布2024-07-16 15:03:38
举报
文章被收录于专栏:DrugAI

DRUGAI

今天为大家介绍的是来自Wengong Jin团队的一篇论文。如何设计具有特定功能的蛋白质?作者受到了化学直觉的启发,即几何结构和生化特性都对蛋白质的功能至关重要。因此本文提出了一种新方法SurfPro,能够在给定目标表面及其相关生化特性的情况下生成功能性蛋白质。SurfPro包含一个分层编码器,逐步建模蛋白质表面的几何形状和生化特性,以及一个自回归解码器来生成氨基酸序列。作者在标准逆折叠(inverse folding)的基准测试CATH 4.2和两个功能性蛋白质设计任务(蛋白质结合体设计和酶设计)上对SurfPro进行了评估。SurfPro在各项测试中均优于之前的最先进的逆折叠方法,在CATH 4.2上的序列恢复率达到了57.78%,并且在蛋白质-蛋白质结合和酶-底物相互作用评分方面表现出更高的成功率。

蛋白质在我们的生物系统中执行各种对细胞过程至关重要的功能。近年来,生成式人工智能的显著成就已经改变了蛋白质设计领域。一种普遍的方法是首先选择或设计目标骨架结构,然后确定能够折叠成该骨架的序列。第一步确定了目标蛋白质的几何形状(不涉及氨基酸类型),第二步(也称为逆折叠,如图1(a)所示)确定对应于给定形状的氨基酸组成。

图 1

然而,蛋白质设计的目标不仅仅是预测能够折叠成目标骨架的序列。最终目标是设计具有特定功能的蛋白质,例如与特定底物结合的酶或抑制特定靶标的蛋白质。逆折叠方法的局限在于它仅通过给定的骨架结构来规定几何约束。为了实现特定功能,不仅需要施加几何约束,还需要施加生化特性约束。例如,两个具有互补形状的蛋白质可能由于结合界面上电荷、极性或疏水性的布置不当而无法结合。

为了解决这个问题,作者提出了SurfPro,这是一种在给定生化特性增强点云的情况下设计功能性蛋白质的方法(也称为基于表面的设计,如图1(b)所示)。表面上的每个点都标注了三维坐标和一组生化特性。SurfPro根据表面的几何形状和生化特性生成氨基酸序列。SurfPro包括一个分层编码器和一个自回归解码器。编码器通过一系列局部图卷积逐步建模表面的几何和生化特性,然后通过全局自注意层来关注长距相互作用的建模。解码器根据学习到的表面几何和生化表示生成蛋白质序列,目标是使生成的序列能够折叠成给定的表面。

表面数据生成

对于原始表面构建,作者使用MSMS计算蛋白质的原始分子表面,该表面以点云形式提供,有N个顶点,每个顶点拥有两个生化特性:疏水性、电荷。根据其最近原子的残基索引对所有顶点进行排序。

先前论文曾提到:原始点云通常带有噪声,这可能限制分子表面的表达能力。因此,点云去噪和平滑是必要的。作者对原始点云数据应用高斯核平滑处理(式1)。

式1

为了减少表面点并提高采样效率,作者使用基于八叉树的压缩方法对蛋白质表面进行降采样。作者使用八叉树将表面转换成小立方体,并估计每个立方体的局部密度。每个八叉树节点递归地划分为八个相等的八分体。在每次划分后,检查每个节点中的点数以确定是否继续划分当前节点。点数少于特定阈值的立方体被视为叶节点,不再进一步划分。所有节点处理完毕后,根据点的分布,将点云转换为多个不等体积的立方体。密度较低的区域生成较大的立方体。

模型部分

图 2

作者设计了一种由Satorras等人提出的等变图卷积层(EGCL)的变体,以捕捉局部几何和生化特性(图2(b)左侧模块)。具体来说,表面压缩后,表面有N’个顶点,每个顶点有一个3D坐标和两个生化特性。通过式2,计算局部消息。SiLU是2018年一篇论文提出的激活函数。对于每个顶点,通过传播邻居的消息来更新节点特征(式3),其中gate是通过MLP后跟sigmoid函数实现的门控机制,用于控制局部几何形状上的信息流。

式 2

式 3

为了促进整个目标表面上的消息传递,作者设计了一个名为FAMHA的全局景观编码器(图2(b)右侧模块)。其关键思想是将frame averaging(FA)技术融入多头注意力层。这样做不仅能传播全局生化特性,还能保证其SE(3)等变性。具体来说,作者通过主成分分析(PCA)从压缩后的点云X’计算出三个主成分v1, v2, v3。利用这三个主成分,定义了一个框架(式4),其中t是点云X’的质心。

式 4

frame函数形成八个变换的代数群。作者利用式5计算全局消息传递。其中,是局部视角建模输出的顶点特征。代表用t平移X’并用旋转矩阵[α1v1, α2v2, α3v3]旋转X′。FAMHA由堆叠的多头注意力(MHA)子层和前馈神经网络(FFN)组成。每两个子层之后都会进行残差连接和层归一化。

式 5

最后,使用自回归Transformer解码器为给定表面生成蛋白质序列。通过NLL损失函数训练模型。

逆折叠任务性能

作者将SurfPro与以下基线模型进行了比较:(1) ProteinMPNN,这是一个具有代表性的逆折叠模型;(2) PiFold和(3) LM-DESIGN是逆折叠任务的最新方法。用于LM-DESIGN的架构是LM-DESIGN(预训练的ProteinMPNN-CMLM:fine-tune)。作者使用它们在GitHub上发布的所有代码以及它们官方实现中的实验设置,以确保公平比较。

表 1

参考之前的工作,作者使用困惑度和恢复率来评估设计的蛋白质序列的质量。由于表面不包括埋在其下的残基,作者报告了所有自回归模型在成对比对后的恢复率,以确保公平比较。

表1显示,SurfPro在所有比较的基线模型中实现了最高的恢复率和最低的困惑度。这些发现表明,结合蛋白质表面的几何和生化约束对于一般蛋白质设计是有益的,使得SurfPro在CATH 4.2数据集中跨不同蛋白质折叠类型实现了最高的恢复率。

蛋白结合体设计任务性能

按照之前的工作,作者使用AlphaFold2 (AF2) 的pAE相互作用来评估设计的结合体与目标蛋白之间的结合亲和力。Bennett等人发现,AF2的pAE相互作用在区分实验验证的结合体和非结合体方面非常有效,在目标蛋白IL7Ra、TrkA、InsulinR和PDGFR上的成功率在1.5%到7%之间。作者使用Bennett等人的官方代码来计算AF2 pAE相互作用。AF2 pAE相互作用越低,设计的结合体效果越好。

表 2

表 3

不同模型的AF2 pAE相互作用和成功率结果分别见表2和表3。结果显示,作者的SurfPro在六个目标蛋白中实现了最低的平均AF2 pAE相互作用和最高的平均成功率。特别是,作者的SurfPro在所有六个类别中都实现了最佳的pAE相互作用,并在六个类别中的三个类别中实现了最高的成功率。作者的模型在IL7Ra上的pAE相互作用甚至略低于实验验证的正结合体。这些发现表明,利用蛋白质表面特性对功能性结合体设计是有效的。此外,SurfPro在两个零样本测试类别中也实现了最高的成功率,证明了其直接从表面捕捉有价值蛋白质特性的能力。因此,即使没有专门针对特定目标进行结合体蛋白的训练,SurfPro也能在这些类别中生成pAE相互作用低于正结合体的结合体。在整个PDB上预训练后,贪婪解码生成的结合体功能变化不大。然而,成功率显著提高,从22.29%提升到26.22%。这表明,在更大的数据集上预训练有助于提高SurfPro的设计能力,确保设计出更多具有更好pAE相互作用的结合体。

酶设计任务性能

在作者的工作中,目标是设计能够与特定底物结合的酶。为了评估酶与底物之间的结合亲和力,作者使用由Kroll等人开发的ESP评分。作者的模型在多个基准上预测酶-底物相互作用的准确率为91%。作者使用他们的官方代码计算ESP评分。

表 4

表 5

表4和表5显示,作者的SurfPro在五个类别中实现了最高的平均成功率和与LM-DESIGN可比的平均ESP评分。需要注意的是,LM-DESIGN是从650M ESM-1b微调的,ESM-1b在广泛的UniRef50数据集上进行了预训练。因此,存在数据泄露的可能,使其在平均ESP评分上取得最佳表现。然而,作者的SurfPro以显著更高的成功率42.23%优于LM-Design的37.58%。在整个PDB表面上进行预训练后,这一表现进一步提高到43.63%。这些发现表明,作者的SurfPro能够设计出与实际酶相比具有更强酶-底物相互作用功能的酶,再次验证了表面特性对于功能性蛋白质设计的帮助。此外,作者的SurfPro展示了零样本设计能力,在设计与底物C00001结合的酶时,成功率达到33.55%。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Song, Z., Huang, T., Li, L., & Jin, W. (2024). SurfPro: Functional Protein Design Based on Continuous Surface. arXiv preprint arXiv:2405.06693.

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档