前言 蛋白质表面指纹的文章最初是发表在2019年,随后被引用了300多次。
最近又看到了一篇关于其在蛋白质从头设计方面的文章,所以觉得可以尝试写一下。
简介:
分子指纹是一个常见的概念,最初常见于药物设计,用于寻找药物结构相似性。
这里以MASSC指纹进行简要描述:
MACCS (Molecular ACCess System) 分子指纹是一种用于表示分子结构信息的二进制指纹。MACCS分子指纹是基于分子中是否含有特定的亚结构来定义的,共包含166个不同的分子特征。每个特征都对应于一个特定的化学子结构,例如,一个羟基、一个苯环或一个氮原子等。如果分子中存在这个特征,则该特征对应的二进制位上的值为1,否则为0。MACCS分子指纹的长度为166位,它可以用于分子相似性比较、分子分类、分子聚类、分子筛选等许多领域中的化学信息学研究。
分子指纹考虑了结构特征,但是这些结构无序,并么有空间上的相对位置信息,其最后多用谷本系数计算相似性。
而蛋白表面指纹同样考虑到了物化属性和空间属性两个概念,以下会进行详细阐述。
蛋白表面相互作用指纹(MaSIF,molecular surface interaction fingerprinting),整体计算框架如下图所示。
其主要采用了蛋白质中的MESH网格表示方法,如下图中的MESH
MESH指的是分子表面的网格化表示,通常是一个离散化的三维网格。在MESH中,分子表面被表示为由许多小三角形组成的网格结构(当然也可由其余多边形组成)。每个三角形的顶点是分子表面上的一个点,这些点可以被分配一些特征,例如几何特征和化学特征。MESH通常用于描述分子表面的形态和特征,以及分子与其他分子之间的相互作用。
开源软件,可以直接上Github:https://github.com/LPDI-EPFL/masif,最简单的方法给出了Docker运行,这里不再赘述使用方法和操作流程。
实际上,从原理来看MaSIF更多的类似于一个分类器,自己没有生成的功能,应该是借助了其余工具。
如图1:
在之前的工作中,MaSIF-site将蛋白质分解为PATCH作为输入,并在每个表面点上输出一个对于该点成为PPI内 buried site 倾向性的回归分数。MaSIF-search工具,用于评估蛋白质结合的表面互补性。
为了解决的PPI从头设计问题,作者设计了一个三阶段的计算方法,如上图所示:
MaSIF-seed用于鉴定有效结合的相互作用的结合种子的问题。这一任务在蛋白质设计中是一个相当大的挑战,因为需要探索的结构可能性非常多,同时需要高精度,因为微小的原子级变化 - 例如放错的甲基基团,界面中未协调的水分子或不兼容的电荷 都足以破坏PPI。
在MaSIF-seed中,蛋白质分子表面被分解成具有12 Å半径的PATCH,平均捕获近蛋白质上400 Å2的表面积,与本地界面中观察到的埋藏表面积一致(补充图1)。对于补丁内的每个点,计算化学和几何特征,以及本地测地极坐标系。然后训练神经网络以输出向量指纹描述符,这些描述符在相互作用蛋白质对的补丁之间是互补的,并且在非相互作用的蛋白质对之间是不相似的。匹配的表面PATCH与目标位点对齐,并使用第二个神经网络进行评分,输出界面对齐(IPA)得分,以进一步提高区分性能。
简而言之,用Seed捞出哪些与相互作用位点有互补特征的Patch,随后再从蛋白质片段数据库中捞出含有这些Patch特征的片段。
作者构建了一个测试集进行基准测试,其中包括114个二聚体复合物,其中31个复合物的binding motif是单个α螺旋段,83个复合物的binding motif由少于50%的螺旋段组成。Decoy sets中,作者使用了1,000个基序(范围从600,000到700,000个Patchs),在螺旋集中,这些基序还具有螺旋二级结构,并且在非螺旋集中,由二和三股β-片构成。
将MaSIF-seed与其他对接方法进行基准测试,以在1,000个decoys中识别正确定向(界面均方根偏差(iRMSD)<3Å)的共结晶结构中的真正结合物。
MaSIF-seed在螺旋集和非螺旋集中分别在18个和41个case中将正确的binding motif识别为得分最高的结果。相比之下,最佳表现的方法ZDock+ZRank2 仅在螺旋集中将6个case识别为得分最高的结果,在非螺旋集中将21个case识别为得分最高的结果。
除了表现更好外,MaSIF-seed的速度也更快,速度增加了20倍到200倍之间,这主要取决于从每个基序中提取的贴片数量。
文中举了三例,这里仅以第一例进行介绍
下载PDB的非冗余集,并将其分解为α-螺旋,删除了所有非螺旋元素。使用DSSP程序根据其二级结构为每个残基打上标签。提取带有连续十个或更多个带有DSSP分配的螺旋(H)标签的残基的片段。将每个提取的螺旋片段视为单体蛋白质,并为每个片段计算表面特征。然后对所有提取的螺旋进行了MaSIF-search指纹和MaSIF-site标签的计算。MaSIF-seed使用指纹相似性和界面亲和性来识别适合的种子。最终,binding seed数据库由约250,000个螺旋motif组成,从中提取了约1.4亿个指纹。
为了收集β-折叠片段,使用MASTER软件对PDB的非冗余集进行预处理,以实现快速结构匹配。两个模板motif,一个由两个β-链组成,一个由三个β-链组成,剥离了loop作为输入提供给MASTER,以查找结构相似的motif,最终成为MaSIF的motif数据集。搜索允许模板中连接β-链的骨架长度在1-10个氨基酸之间变化。两链β-折叠和三链β-折叠的RMSD截止值分别设为2.1 Å和3 Å。与准备螺旋motif类似,每个β-片段被视为单体蛋白质,并生成表面特征,随后生成MaSIF-search指纹和MaSIF-site标签。最终,β-链binding seed数据库包含约390,000个motif,从中提取了约2.6亿个指纹。
从每个解空间中选择一个代表性的种子,然后使用Rosetta MotifGraft将其与1,300个单体支架数据库匹配,以便进行RBD和PD-L1设计。对于优化,选择的种子被嫁接到一个由PDB、两个计算设计的小蛋白数据库和一个AF2蛋白质组预测数据库组成的4,347个小球形蛋白质数据库(<100aa)。在嫁接之前,种子被裁剪到最少的接触侧链数。此外,基于β-片段的seed的loop区域被完全去除。在Rosetta(v.3.13)进行侧链嫁接之后,随后设计其余的interface。最终的设计是基于Rosetta结合能、形状互补性、氢键数和埋藏的未满足极性原子数量进行实验表征的选择。