前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Nat. Commun. | Metal3D: 一种用于准确预测蛋白质中金属离子位置的通用深度学习框架

Nat. Commun. | Metal3D: 一种用于准确预测蛋白质中金属离子位置的通用深度学习框架

作者头像
DrugAI
发布2023-09-19 14:10:06
2870
发布2023-09-19 14:10:06
举报
文章被收录于专栏:DrugAIDrugAI

编译| 曾全晨 审稿| 王建民

今天为大家介绍的是来自Ursula Rothlisberger研究团队的一篇关于金属离子位置预测的论文。金属离子是许多蛋白质的重要辅因子,在酶设计、蛋白质相互作用设计等许多应用中发挥关键作用,它们在生物体中丰富存在,并通过强烈的相互作用与蛋白质结合,并具有良好的催化特性。然而,生物相关金属(如锌)的复杂电子结构限制了金属蛋白质的计算设计。在这项工作中,作者开发了两个工具——基于3D卷积神经网络的Metal3D和仅基于几何标准的Metal1D,以改进蛋白质结构中锌离子的位置预测。与其他当前可用的工具进行比较显示,Metal3D是迄今为止最准确的锌离子位置预测器,其预测结果与实验位置相差在0.70 ± 0.64 Å范围内。Metal3D为每个预测位置输出置信度指标,并可用于在蛋白质数据库中具有较少同源物的蛋白质上工作。Metal3D可以预测全局锌密度,用于计算预测结构的注释,还可以预测每个残基的锌密度,用于蛋白质设计工作流程中。Metal3D目前是针对锌进行训练的,但通过修改训练数据,该框架可以轻松扩展到其他金属。

1

背景介绍

金属蛋白质在自然界中普遍存在,并存在于所有主要酶家族中。锌是最常见的过渡金属(存在于约10%的沉积结构中),可以在结构上(例如在锌指蛋白中)或三核活性位点中发挥结构(例如在锌指蛋白中)或催化作用。Zn2+是一个出色的路易斯酸,在四面体、五价或八面体配位中最常见。约10%的酶催化反应使用锌作为辅因子。

虽然简单的金属离子结合位点可以快速进行工程设计,但在蛋白质内部工程设计复杂的金属离子结合位点则困难,因为这样的位点通常由氢键网络支持。对于金属蛋白质的计算设计来说,一个复杂性的问题是缺乏适用于锌和其他过渡金属的良好(非键合)力场,能够准确再现(例如四面体)配位及正确的配位距离,这使得使用Rosetta等方法进行设计非常困难。

在蛋白质研究领域,基于结构的深度学习方法已被广泛应用于多种应用,例如蛋白质结构预测等。目前金属位置的最先进预测器是MIB,它通过“片段转换方法”将结构和序列信息结合起来,在其数据库中搜索同源位点,以及BioMetAll,它是一种基于骨架组织的几何预测器。这两种方法都有显著的缺点:MIB在分析中排除具有少于2个配位伙伴的金属位点,并受到其数据库中模板的可用性限制。在此项工作中,作者提出了两个金属离子定位预测器,它们仅使用锌进行训练,并评估其在锌的性能和选择性。基于深度学习的Metal3D预测器使用蛋白质环境的体素化表示,并预测每个残基的金属密度,可以对其进行平均处理以获得整个蛋白质上平滑的金属概率密度。基于距离的预测器Metal1D使用从蛋白质数据PDB中挖掘的配位模式来预测金属的位置,直接预测猜测的金属结合位点的坐标。Metal3D为在计算中设计金属离子结合位点铺平了道路,无需依赖预定义的几何规则或昂贵的量子力学计算。

图1

图2

2

Metal3D模型

Metal3D接受蛋白质结构和一组氨基酸残基作为输入,对每个残基周围的环境进行体素化,并预测每个残基的金属密度。预测的每个残基密度取平均值后,得到整个蛋白质的锌密度。在高概率阈值下,预测的金属密度呈球形(图2c),在低概率阈值下,预测的密度是不规则的(图2a)。作者用离散化的Jaccard相似度评估了模型生成的金属密度的质量,对测试集中的所有环境进行评估。可以注意到,在残基中心输出密度的边缘处经常预测到假的密度,因此作者考虑了一个较小的框,并将测试集的金属密度与预测的金属概率密度的相似性进行了评估,并考虑到了边缘区域的零值。

3

Metal1D模型

几何预测器的统计分析使用存储在PDB结构中的LINK记录。从所有训练结构中提取了所有锌配位模式的概率图(图1A)。训练集中的平均配位距离为2.2 ± 0.2 Å,因此预测的默认搜索半径设定为5.5 Å。总共鉴定了208个不同的环境,其中包含超过5个不同蛋白质(在30%序列相似性下)。

4

模型对比

图3

现有的金属离子预测器可以分为两类:结合位点预测器和结合位置预测器。前者仅识别结合离子的氨基酸残基,而后者预测金属离子自身的坐标。Metal1D和Metal3D都可以预测潜在的结合位点的坐标。因此,作者通过与最近的具有可用代码/网络服务器的结合位置预测器进行比较来评估它们的性能:BioMetAll、MIB(2022年7月后不再可用)和MIB2。

首先,作者调查了所有工具在二元分类(存在或不存在锌结合位点)中检测锌离子结合位点的潜力。将正确识别的结合位点(真阳性,TP)定义为与实验锌位点在5Å范围内的预测结果。如果工具在5Å范围内未预测到金属,则将该位点视为假阴性(FN)。假阳性(FP)预测,即在错误的位置上放置金属,按照5Å范围进行聚类,并按每个聚类计数一次。所有工具都在Metal3D和Metal1D的保留测试生物组装体上进行评估。将MIB(t = 1.25)和BioMetAll的性能与Metal3D(概率阈值p = 0.75)进行比较,发现Metal3D能够识别更多的位点(85个),而MIB(78个)或BioMetAll(75个)的假阳性数量明显较低(图3)。MIB预测了180个假阳性位点,MIB2预测了162个位点,BioMetAll预测了134个位点,而Metal3D仅在p = 0.75阈值下预测了9个假阳性位点。Metal1D(t = 0.5)具有类似的检测能力(检测到78个位点),与MIB、MIB2和BioMetAll相比,假阳性数量较低(47个)。MIB2在低t分数下具有更高的召回率,但精度降低(图3B)。作者从测试集中的锌位点列表(总共189个)中移除了具有小于2个离实验锌位置2.8Å范围内的唯一蛋白配体和占位度≤0.5的70个位点。对于所有工具,在这个精简集中的正确预测数量几乎没有变化(图3),这表明如果结合位点具有2个或更多的蛋白配体,大多数工具都能正确预测。

图4

在评估工具预测的位点数量之后,另一个关键指标是预测的空间精度。对于正确识别的位点(TP),作者测量了实验位置与预测位置之间的平均绝对偏差(MAD)(图4a)。Metal3D在p = 0.9时的MAD为0.70 ± 0.64 Å,在p = 0.25时为0.74 ± 0.66 Å,这表明低置信度的预测仍准确地定位在蛋白内部。Metal3D在p = 0.9时的预测MAD中位数为0.52Å,这意味着对于一半的预测,模型的预测结果达到或优于0.5Å的网格分辨率。

5

AlphaFold 2结构的注释

图5

AlphaFold2经常会在全体构象中预测金属离子结合位点的侧链。像AlphaFill这样的工具利用结构同源性,将金属从类似的PDB结构移植到预测的结构中。与AlphaFill不同,Metal3D不需要基于序列或结构比对的显式同源性,因此它可以用于注释从AlphaFold数据库中获得的暗蛋白组中的锌结合位点。Metal3D对于使用中的示例(PDB 3RZV46)中的催化位点(1)和锌指结构(2)进行了高概率(p = 0.99)的识别,即使AlphaFold模型中的其中一个位点略微无序,并且其中一个结合残基处于溶剂面向构象(D309)。Metal3D预测的金属位置与模型的距离分别为0.22Å和0.37Å,而AlphaFill的距离分别为0.21Å和0.41Å。

AlphaFill使用25%的序列相似性作为截断值,这对于某些没有结构特征的同源蛋白来说可能有问题。对于人类酰基转移酶ZDHHC23(Uniprot Q8IYP9),存在一个高可信度的AlphaFold2预测,但AlphaFill无法放置金属离子,因为与最接近的PDB结构(PDB 6BMS47)的序列相似性为24%,低于25%的截断值。对于另一个人类酰基转移酶ZDHHC15(Uniprot Q96MV8)中的相同位点,由于与6BMS的序列相似性更高(64%),AlphaFill可以放置金属(图5 B)。对于ZDHHC23,Metal3D可以基于单个输入结构(MAD为0.75Å和0.48Å,p > 0.99)放置金属并具有很高的可信度。

6

结论

Metal3D基于神经网络模型,在自然蛋白质上进行训练,预测蛋白晶体结构中锌离子的概率分布。该模型通过执行分割任务,确定输入空间中的特定点是否含有锌离子。Metal3D利用高分辨率的晶体结构(<2.5Å)准确地预测锌离子位点。使用高分辨率结构是必要的,因为在分辨率大于平均锌配位基团距离(2.2Å)的情况下,锌位置的不确定性明显增加,这可能会影响位点预测的准确性。与目前可用的工具相比,Metal3D不需要过滤训练示例以满足特定的配位要求(即只有至少2个蛋白质配体的位点)。因此,该模型能够看到PDB中存在的所有锌离子位点的多样性。这种模型具有优势,因为金属蛋白质设计工作流程需要模型评分整个锌位点的连续性,从高金属浓度下仅在高亲和力金属结合位点到纳摩尔金属亲和力酶中高度有序的锌位点。预测的概率可以用作置信度指标或优化目标,在突变中增加锌结合的概率。

参考资料

Dürr, S.L., Levy, A. & Rothlisberger, U. Metal3D: a general deep learning framework for accurate metal ion location prediction in proteins. Nat Commun 14, 2713 (2023).

https://doi.org/10.1038/s41467-023-37870-6

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-06-13 00:01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档