蛋白质是生命活动的基本单位,研究位于编码区的基因组变异,最重要的一点就是分析该变异是否会影响蛋白质的结构与功能。之前的文章中介绍了SIFT软件,本篇介绍另外一款软件PolyPhen-2。
PolyPhen-2 是Polymorphism Phenotyping v2 的缩写,从命名也可以看出,研究的是核苷酸多态和表型之间的关系,这里的核苷酸多态性指的就是SNP位点,而且是非同义突变nonsynonymous SNP位点,简称nsSNPs。表型指的就是蛋白质的结构和功能了,需要注意的一点就是,这款软件只针对human,不研究其他的物种。
官网链接如下
http://genetics.bwh.harvard.edu/pph2/
PolyPhen-2在预测氨基酸替换对蛋白质的影响时,会结合多序列比对的结果和蛋白质的三维结构等信息。它基于一个有监督的机器学习模型,计算出氨基酸替换改变蛋白质结构和功能的可能性。提供了两套数据用于建模,分别是HumDiv
和HumVar
。
HumVar
适用于评估孟德尔遗传病相关的突变位点,而HumDiv
适用于评估复杂疾病或者表型的突变位点。两种模型最终都会给出三个值,蛋白质结构和功能发生改变的概率值,假阳性率FPR
,真阳性率TPR
。
在对突变位点分类时,除了概率值以外,还需要关注假阳性率FPR。每种模型对于FPR值定义了不同的阈值。HumDiv
模型的阈值为5%/10%,HumVar
模型的阈值为10%/20%, 每种模型的阈值都是两个。以HumDiv
模型进行说明,在概率值符合要求的条件下,FPR低于第一个值,即5%的变异位点,定义为probably damaging
;FPR在第一个值和第二个值中间的,即5%到10%,定义为possibly damaging
;高于第二个至,即大于10%,定义为benign
。假阳性率越低,说明评估的结果越可靠。
在首页提供了一个在线服务,可以输入蛋白质序列,预测某个位点的氨基酸替换对该蛋白质的影响。
如上图所示,在Protein or SNP identifier对应的输入框中输入蛋白质的ID,默认支持的是UniProtKB数据库, 或者直接输入FASTA格式的蛋白质序列。在Position
一栏中,填写氨基酸替换的位置,Substitution
中分成两部分,AA1
指定原始的氨基酸类型,AA2
指定替换后的氨基酸类型,最后在Query description
中输入查询的描述信息,点击Submit Query
按钮提交即可。
查询的结果是一个html页面,分成了3个部分。
对输入的蛋白质的基本信息进行描述,包括氨基酸突变的位置,突变前后氨基酸种类,蛋白质的描述信息等
提供了基于HumDiv
和HumVar
两套训练数据集的结果,在结果中,会给出一个打分,这个score的取值范围为0-1,越接近1,说明氨基酸替换对蛋白质结构和功能造成影响的概率越大,同时还需要结合假阳性率FPR值做出最终的判断。
这部分内容提供了多序列比对和蛋白质三维结构两部分结果。
多序列比对结果如下
蛋白质三维结构结果如下
如果有多个位点的数据需要查询,可以使用Batch query
服务,链接如下
http://genetics.bwh.harvard.edu/pph2/bgi.shtml
当然也可以直接下载软件,本地运行,下载链接如下
http://genetics.bwh.harvard.edu/pph2/dokuwiki/downloads
这个软件只对大学和科研工作者免费,其他用户是需要收费的。
官方还提供了一个数据库WHESS
, 事先计算了外显子区的非同义突变对蛋白质的影响,链接如下
http://genetics.bwh.harvard.edu/pph2/dbsearch.shtml
支持多种检索方式,具体可以参考官方示例,需要注意的是,基因组的位置是基于hg19版本的。在检索结果中,会给出HDiv
和HVar
两套结果,示例如下