专栏首页生信小驿站如何预测蛋白质三维结构(SWISS-MODEL)

如何预测蛋白质三维结构(SWISS-MODEL)

原理

根据对天然蛋白质结构与功能分析建立起来的数据库里的数据,可以预测一定氨基酸序列肽链空间结构和生物功能;也可以通过分子动力学、分子热力学等,根据能量最低、同一位置不能同时存在两个原子等基本原则分析计算蛋白质分子的立体结构和生物功能。

步骤

蛋白质结构的理论预测方法都是建立在氨基酸的一级结构决定高级结构的理论基础上,大致分为以下三类。 ( 1 )比较建模法( comparative modeling method ) 比较建模法是基于知识的蛋白质结构预测方法,又称为同源结构预测,是根据大量已知的蛋白质三维结构来预测序列已知而结构未知的蛋白质结构。 按照目前的定义,若待模型构建蛋白质的序列与模板序列经比对( alignment )后的序列同源性( sequence identity )在 40% (也有人认为在 35% )以上,则它们的结构可能属于同一家族,它们是同源蛋白( homology ),可以用同源蛋白模型构建的方法预测其三维结构。因为它们可能是由同一种蛋白质分化而来,它们具有相似的空间结构,相同或相近的功能。因此,若知道了同源蛋白家族中某些蛋白质的结构,就可以预测其它一些序列已知而结构未知的同源蛋白的结构,可以用同源模型构建的方法预测未知蛋白质的三维结构。 常用的数据库是swiss-model和interproscan。 同源蛋白模型构建(模建)的步骤: ① 目标蛋白序列与目标序列的匹配:应用 FASTA 或 BLAST 搜索软件,在 PIR 、 SWISSPROT 或 GENEBANK 等序列库中按序列同源性挑选出一些同源性比较高的序列,然后把挑选出的序列与目标序列基序多重匹配,得到模板结构等价位点套的初始集合。 ② 根据模板结构构建目标蛋白结构模型:在已确定的模板结构等价位点套的初始集合的基础上,旋转每一个模板的结构,使它们相互间的位置尽可能多地重叠在一起。不同两个模板在空间中若复合一定的重叠距离标准,那它们相互之间的关系就是等价位点。许多这样的等价位点构成了等价位点套。 叠合结束后,即得到了同源蛋白的结构保守区( SCRs ),以及相应的基架结构( framework )。模板结构匹配后,一般还要用得到的同源体的 SCRs 的第一条序列与目标序列匹配,挑选出目标序列上的高相拟区,定义为目标蛋白的 SCRs 。 Homology 、 UQANTA/CHARM 、 COMPOSER 、 CONSENSUS 、 MODELLER 和 Collar extension 等软件和方法可以用于目标蛋白结构模型的构建。 ③ 对模建结构基序优化和评估:同源结构模建(预测)得到的蛋白质结构模型,通常含有一些不合理的原子间接触,需要对模型进行分子力学和分子动力学优化,消除模型中不合理的接触。另外,模型中有些键长、键角和二面角也有可能不合理,也需要检查评估。 PROCHECK 和 PROSA II 等软件常用于完成这类工作。

可以将上述的步骤简化为: ① 找到与目标序列同源的已知结构作为模板(目标序列与模板序列的一致度要 ≥ 30%) ②为目标序列与模板序列(可以多条)创建序列比对。通常比对软件自动创建的序列比对还需要进一步人工矫正。 ③ 根据第二部创建的序列比对,用同源建模软件预测结构模型。 ④评估模型质量,并根据苹果结果重复以上过程,直至模型质量合格。

工具介绍( SWISS-MODEL )

SWISS-MODEL是一款用同源建模法预测蛋白质三级结构的全自动在线软件。SWISS-MODEL中一共有三个工作方式:First Approach mode:Alignment Interface mode:Project(Optimise)mode:

预测效果(使用范围)

如果目标序列与模板序列一致度极高,那么同源建模法是最准确的方法。

  • 如果一致度能达到30%,那么模型的准确度就可以达到80%,模型可以用于寻找功能位点,以及推测功能关系等。
  • 如果一致度能达到50%,那么模型的准确度就可以达到95%, 可以根据模型设计定点突变实验,设计晶体结构自转,辅助完成真实结构的测定
  • 如果一致度能达到70%以上,我们可以认为预测模型完全代表真是结果,可以用来分子筛选,分子对接,药物设计结构功能研究。
  • 特殊情况,虽然序列一致度达到很高水平,但是结构却并不相同。(这种情况比较少见,但需要注意)。 同时,此方法适用于能找到相似度高的已知结构的序列 。
实际操作

(1)找到目标基因的氨基酸序列,这一步在上一篇推送中介绍了。 (2)打开SWISS-MODEL网站,创建一个新的project或者modeling

(3)粘贴氨基酸序列;创建project名字;留下自己的邮箱;运作model。

一般耗时几分钟到半小时不等。运行成功后,所留下的邮箱会收到通知。

(4)得到一些model结果

GMQE :可信度范围为 0-1,值越大表明质量越好 QMEAN:区间-4-0,越接近0,评估待测蛋白与模板蛋白的匹配度越好。

(5)根据标准选择结果最好的model

(6)修改三维结构的样式或者下载图片

结果评估
  • GMQE GMQE(全球模型质量估计)是一种结合目标-模板对齐方式和模板搜索方法的属性的质量估计。所得的GMQE分数表示为0到1之间的数字,反映了使用该对齐方式和模板构建的模型的预期准确性以及目标的覆盖范围。数字越高表示可靠性越高。
  • QMEAN 该模型的得分可与相似大小的实验结构所期望的得分相媲美。0值附近的QMEAN 得分表明模型结构与相似大小的实验结构之间具有良好的一致性。分数为-4.0或以下表示模型的质量较低。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 蛋白质二级结构预测

    连接螺旋和折叠结构 常位于蛋白结构表面,多为带点和极性氨基酸 常为活性位点组成部分

    用户1359560
  • python 特征选择①

    VarianceThreshold 是特征选择中的一项基本方法。它会移除所有方差不满足阈值的特征。默认设置下,它将移除所有方差为0的特征,即那些在所有样本中数值...

    用户1359560
  • R语言第二章数据处理⑤数据框列的转化和计算目录正文

    本篇描述了如何计算R中的数据框并将其添加到数据框中。一般使用dplyr R包中以下R函数:

    用户1359560
  • BERT论文解读

    BERT的设计是通过在所有层中对左右上下文进行联合调节,来预先训练来自未标记文本的深层双向表示。

    程序员一一涤生
  • BERT论文解读

    BERT的设计是通过在所有层中对左右上下文进行联合调节,来预先训练来自未标记文本的深层双向表示。

    程序员一一涤生
  • 邱锡鹏:从Transformer到BERT --自然语言处理中的表示学习进展

    本次报告主要涉及深度学习在自然语言处理(Natural Language Processing,NLP)领域的进展,首先讲解了语言的表示学习、词嵌入等基础概念和...

    马上科普尚尚
  • Java微信开发_Exception_03_非微信官方网页-invalid signature

    由于natapp免费隧道的域名是系统随机分配的,老是在变。故昨天又换了内网映射工具,分别换了ngrok和花生壳,然而在做JSSDK网页开发时,按了微信的view...

    shirayner
  • 用Tcl定制Vivado设计流程

    前端设计是把源代码综合为对应的门级网表的过程,而后端设计则是把门级网表布局布线到芯片上最终实现的过程。 ISE 中设计实现的每一步都是相对独立的过程,数据模型...

    瓜大三哥
  • 中篇 | 多轮对话机器之话题意图识别

    ? 引言 回顾一下自己参与的智能客服系统项目,从技术调研到游戏领域的对话文本数据分析和任务细分定义,再到建模调优以及最后的运营优化等整体流程的学习,收获良多。...

    腾讯技术工程官方号
  • OA与ERP的区别和关系

    OA与ERP目前是管理软件业的两大主角儿,两者均涉及到企业管理的核心要素,其中ERP属于业务系统,OA则属于运营系统,是企业完整IT系统不可或缺的重要组成。

    跟着阿笨一起玩NET

扫码关注云+社区

领取腾讯云代金券