前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >榕树集-蛋白质表面指纹(MaSIF)

榕树集-蛋白质表面指纹(MaSIF)

作者头像
DrugSci
发布2023-05-24 10:24:23
4650
发布2023-05-24 10:24:23
举报
文章被收录于专栏:FindKeyFindKey

前言 蛋白质表面指纹的文章最初是发表在2019年,随后被引用了300多次。

最近又看到了一篇关于其在蛋白质从头设计方面的文章,所以觉得可以尝试写一下。

简介:

分子指纹是一个常见的概念,最初常见于药物设计,用于寻找药物结构相似性

这里以MASSC指纹进行简要描述:

MACCS (Molecular ACCess System) 分子指纹是一种用于表示分子结构信息的二进制指纹。MACCS分子指纹是基于分子中是否含有特定的亚结构来定义的,共包含166个不同的分子特征。每个特征都对应于一个特定的化学子结构,例如,一个羟基、一个苯环或一个氮原子等。如果分子中存在这个特征,则该特征对应的二进制位上的值为1,否则为0。MACCS分子指纹的长度为166位,它可以用于分子相似性比较、分子分类、分子聚类、分子筛选等许多领域中的化学信息学研究。

分子指纹考虑了结构特征,但是这些结构无序,并么有空间上的相对位置信息,其最后多用谷本系数计算相似性。

而蛋白表面指纹同样考虑到了物化属性和空间属性两个概念,以下会进行详细阐述。

蛋白表面相互作用指纹

蛋白表面相互作用指纹(MaSIF,molecular surface interaction fingerprinting),整体计算框架如下图所示。

其主要采用了蛋白质中的MESH网格表示方法,如下图中的MESH

MESH指的是分子表面的网格化表示,通常是一个离散化的三维网格。在MESH中,分子表面被表示为由许多小三角形组成的网格结构(当然也可由其余多边形组成)。每个三角形的顶点是分子表面上的一个点,这些点可以被分配一些特征,例如几何特征和化学特征。MESH通常用于描述分子表面的形态和特征,以及分子与其他分子之间的相互作用。

MaSIF 计算流程

开源软件,可以直接上Github:https://github.com/LPDI-EPFL/masif,最简单的方法给出了Docker运行,这里不再赘述使用方法和操作流程。

  1. 蛋白质表面的计算 对数据集中的所有蛋白质进行质子化处理,并使用密度为3.0和水探针半径为1.5Å的MSMS程序进行三角化处理(也就是形成初步MESH)。然后使用pymesh将蛋白质网格下采样和规则化到1.0Å的分辨率(优化MESH)。在蛋白质网格上直接计算几何和化学特征。
  2. 挑选出PATCH 对于蛋白质表面MESH中的每个点,提取了一个以半径为9或12 Å的补丁(PATCH)来分析补丁表面的特征。半径的选择是基于经验的,主要受性能和内存限制的影响。对于MaSIF-search,选择了12 Å,可以覆盖许多PPI的埋藏表面积,同样应用于MaSIF-ligand。选择了9 Å的用于MaSIF-site,因为较小的补丁允许在可用内存资源内进行多个卷积层。
  3. 特征计算
    1. 形状指数(Shape index) 形状指数(shape index)是针对表面上每个点的局部曲率而描述的形状,值的范围为−1(高度凹陷)到+1(高度凸起)。它是相对于主曲率κ1,κ2定义的,其中κ1≥κ2,公式为: ‍
    1. 距离相关曲率(Distance-dependent curvature) 对于在PATCH中的每个顶点,距离相关曲率计算一个值,在范围[−0.7,0.7]内,描述了每个点到中心点的距离和表面法线之间的关系。
    2. 泊松-玻尔兹曼连续静电表面(Poisson–Boltzmann continuum electrostatics) APBS5(v.1.5) 被用于为每个蛋白质计算泊松-玻尔兹曼静电表面。使用 APBS53 套件中的 Multivalue 将网格表面的每个顶点的电荷值分配。电荷值在+30和-30之间时,并后续将值规范化在-1到1之间。
    3. 自由电子和质子供体(Free electrons and proton donors) 使用氢键势能作为参考,计算分子表面上的自由电子和潜在氢键供体的位置。这些值的范围为-1(氢键受体的最佳位置)到+1(氢键供体的最佳位置)
    4. 疏水性(Hydropathy) 根为每个顶点分配了一个疏水性定值,该定植是基于距离最近的原子的氨基酸种类来计算的。这些原始值在-4.5(亲水性)到+4.5(最疏水性)之间,并被规范化为在-1和1之间。
  4. 计算测地极坐标 (geodesic polar coordinates) 提取出的PATCH表面,MaSIF使用测地极坐标系统将顶点的位置映射到径向坐标(即距离中心的测地距离)和角坐标(即与随机方向的角度)相对于该片段的中。这些坐标添加关于特征之间空间关系的信息。
  1. 径向坐标 描述点到 patch 中心的测地距离,在MaSIF中,距离是连接表面网格图上节点的边长之和。
  2. 角坐标 将PATCH展平到平面上,由于PATCH没有基准方向,因此在计算平面中的随机方向作为参考,并将每个顶点相对于该参考的角度设置为角坐标
  1. 几何深度学习(Geometric deep learning) 几何深度学习可以将基于图像的深度神经网络架构,例如卷积神经网络(CNNs),应用于如表面之类的几何数据。在图像分析中使用的传统CNNs可以被认为是在图像上运行滑动窗口;在窗口的每个位置,都会提取一个像素块。然后,每个像素乘以相应的可学习滤波器值并将结果求和。在蛋白质分子表面上,并没有没有规则的网格,因此MaSIF用在本地测地极坐标系中定义的一组高斯核代替它,这些核充当“软像素”,称之为learned soft polar grid。

  • f:特征向量
  • x :patch
  • J: 每个网格单元

MaSIF 应用范围

  • MaSIF-ligand: 配体结合位点预测以及分类
  • MaSIF-site:蛋白质相互作用位点预测
  • MaSIF-search:基于表面指纹的PPIs预测

基于MaSIF的头蛋白质相互作用从头设计

实际上,从原理来看MaSIF更多的类似于一个分类器,自己没有生成的功能,应该是借助了其余工具。

设计策略

如图1:

在之前的工作中,MaSIF-site将蛋白质分解为PATCH作为输入,并在每个表面点上输出一个对于该点成为PPI内 buried site 倾向性的回归分数。MaSIF-search工具,用于评估蛋白质结合的表面互补性。

为了解决的PPI从头设计问题,作者设计了一个三阶段的计算方法,如上图所示:

  • (1)使用MaSIF-site预测具有高结合倾向的目标 buried interface sites(图1a);
  • (2)基于表面指纹搜索具有必要特征的 complementary structural motifs(binding seeds)来engage目标位点(MaSIF-seed);
  • (3)使用已建立的移植技术将binding seed移植到蛋白质支架上,以赋予设计界面的稳定性和额外的接触(图1c)。

MaSIF seed

MaSIF-seed用于鉴定有效结合的相互作用的结合种子的问题。这一任务在蛋白质设计中是一个相当大的挑战,因为需要探索的结构可能性非常多,同时需要高精度,因为微小的原子级变化 - 例如放错的甲基基团,界面中未协调的水分子或不兼容的电荷 都足以破坏PPI。

在MaSIF-seed中,蛋白质分子表面被分解成具有12 Å半径的PATCH,平均捕获近蛋白质上400 Å2的表面积,与本地界面中观察到的埋藏表面积一致(补充图1)。对于补丁内的每个点,计算化学和几何特征,以及本地测地极坐标系。然后训练神经网络以输出向量指纹描述符,这些描述符在相互作用蛋白质对的补丁之间是互补的,并且在非相互作用的蛋白质对之间是不相似的。匹配的表面PATCH与目标位点对齐,并使用第二个神经网络进行评分,输出界面对齐(IPA)得分,以进一步提高区分性能。

简而言之,用Seed捞出哪些与相互作用位点有互补特征的Patch,随后再从蛋白质片段数据库中捞出含有这些Patch特征的片段。

测试效果

作者构建了一个测试集进行基准测试,其中包括114个二聚体复合物,其中31个复合物的binding motif是单个α螺旋段,83个复合物的binding motif由少于50%的螺旋段组成。Decoy sets中,作者使用了1,000个基序(范围从600,000到700,000个Patchs),在螺旋集中,这些基序还具有螺旋二级结构,并且在非螺旋集中,由二和三股β-片构成。

将MaSIF-seed与其他对接方法进行基准测试,以在1,000个decoys中识别正确定向(界面均方根偏差(iRMSD)<3Å)的共结晶结构中的真正结合物。

MaSIF-seed在螺旋集和非螺旋集中分别在18个和41个case中将正确的binding motif识别为得分最高的结果。相比之下,最佳表现的方法ZDock+ZRank2 仅在螺旋集中将6个case识别为得分最高的结果,在非螺旋集中将21个case识别为得分最高的结果。

除了表现更好外,MaSIF-seed的速度也更快,速度增加了20倍到200倍之间,这主要取决于从每个基序中提取的贴片数量。

实例

文中举了三例,这里仅以第一例进行介绍

靶向SASR-CoV-2 RBD
步骤:
  1. MaSIF-site预测RBD上的表面位点(这些位点具有被蛋白质binder 所结合的高倾向性)
  2. 选择了一个与ACE2结合区域不同但有重叠的位点,以便一个假定的binder可以抑制ACE2-RBD相互作用
  3. 搜索了一个包含1.4亿个来自螺旋片段的表面指纹的子集,以找到可以定位到所选位点的bindind seed。MaSIF-seed提供了7,713个bindind seed,其中有两个显著特征:
  • 接触表面不含有具有强结合热点特征的残基(如大的疏水残基)
  • 结合种子在螺旋片段的两个不同方向上具有等效分布,其结合在彼此相距180°的位置
  1. 合成了一个排名靠前的bindind seed的线性肽,但是使用表面等离子共振(SPR)没有检测到任何结合相互作用
  2. 使用Rosetta MotifGraft ,确定了几个与种子的两种结合模式兼容的蛋白质支架,将来自排名靠前的种子的热点侧链移植到这些支架上,并使用Rosetta(v.3.13)优化了结合表面
  3. 总共筛选了63种基于20种支架的设计。在这一轮设计中,DBR3_01在酵母展示实验中表现出微弱的结合活性。此外,DBR3_01与ACE2展示出了竞争性结合,表明结合物正在针对正确的RBD位点。
  4. 生成两个突变库来提高设计的结合亲和力:首先,准备了一个在设计的接口中的定向突变库,得到了有四个突变的DBR3_02,并使用SPR确定了解离常数(KD)为4.6µM。其次,筛选了一个位点饱和突变(SSM)库,富集了三个点突变体,其中一个与第一个库的突变重合。将这三个突变体添加到DBR3_02中,得到了KD为80 nM的DBR3_03,其稳定折叠。

Binding seed database

α-螺旋种子库生成

下载PDB的非冗余集,并将其分解为α-螺旋,删除了所有非螺旋元素。使用DSSP程序根据其二级结构为每个残基打上标签。提取带有连续十个或更多个带有DSSP分配的螺旋(H)标签的残基的片段。将每个提取的螺旋片段视为单体蛋白质,并为每个片段计算表面特征。然后对所有提取的螺旋进行了MaSIF-search指纹和MaSIF-site标签的计算。MaSIF-seed使用指纹相似性和界面亲和性来识别适合的种子。最终,binding seed数据库由约250,000个螺旋motif组成,从中提取了约1.4亿个指纹。

β-折叠片段种子库生成

为了收集β-折叠片段,使用MASTER软件对PDB的非冗余集进行预处理,以实现快速结构匹配。两个模板motif,一个由两个β-链组成,一个由三个β-链组成,剥离了loop作为输入提供给MASTER,以查找结构相似的motif,最终成为MaSIF的motif数据集。搜索允许模板中连接β-链的骨架长度在1-10个氨基酸之间变化。两链β-折叠和三链β-折叠的RMSD截止值分别设为2.1 Å和3 Å。与准备螺旋motif类似,每个β-片段被视为单体蛋白质,并生成表面特征,随后生成MaSIF-search指纹和MaSIF-site标签。最终,β-链binding seed数据库包含约390,000个motif,从中提取了约2.6亿个指纹。

seed嫁接以及计算设计

从每个解空间中选择一个代表性的种子,然后使用Rosetta MotifGraft将其与1,300个单体支架数据库匹配,以便进行RBD和PD-L1设计。对于优化,选择的种子被嫁接到一个由PDB、两个计算设计的小蛋白数据库和一个AF2蛋白质组预测数据库组成的4,347个小球形蛋白质数据库(<100aa)。在嫁接之前,种子被裁剪到最少的接触侧链数。此外,基于β-片段的seed的loop区域被完全去除。在Rosetta(v.3.13)进行侧链嫁接之后,随后设计其余的interface。最终的设计是基于Rosetta结合能、形状互补性、氢键数和埋藏的未满足极性原子数量进行实验表征的选择。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-04-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugSci 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 蛋白表面相互作用指纹
  • MaSIF 计算流程
  • MaSIF 应用范围
  • 基于MaSIF的头蛋白质相互作用从头设计
    • 设计策略
      • MaSIF seed
        • 测试效果
          • 实例
            • 靶向SASR-CoV-2 RBD
          • Binding seed database
            • α-螺旋种子库生成
            • β-折叠片段种子库生成
          • seed嫁接以及计算设计
          相关产品与服务
          数据库
          云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档