上一篇文章中我们简单地介绍了Pfam数据库
那么如何将Pfam数据库转化为本地数据库呢?我们可以用HMMER软件。
HMMER被用于在序列数据库中搜索同源序列,产生同源序列比对,所使用的方法是基于隐马尔科夫模型。HMMER常常与profile数据库连用,例如Pfam等。
HMMER可以在windows下用命令提示符运行
解压后进入HMMER文件夹,为方便建库比对,可以把相关蛋白质序列复制到HMMER文件夹中。
例如上文从Pfam中下载的seed文件
在文件夹空白处按住鼠标右键和shift,选择在当前文件夹打开命令提示符(或通过win+r cmd cd 命令进入HMMER文件夹)
建库命令:
可以在HMMER文件夹下看到一个新的名为pf03902.hmm的文件
用NOTEPAD++打开pf03902.hmm文件,可以看到hmm文件是txt文件格式的转化。
横坐标为20种氨基酸,纵坐标代表不同氨基酸的评分。
我们可以以格式化的seed文件也就是hmm文件作为种子,去搜索基因组中相关的蛋白质序列。
由于hmm中是氨基酸序列文件,我们先要将基因组文件翻译成蛋白质序列。
基因预测的软件有很多,比较方便的在线软件是softberry里面的FGENESH
http://linux1.softberry.com/berry.phtml? topic=index&group=programs&subgroup=gfind
我们上传一段从NCBI下载的红曲基因组序列(Monascus ruber),点击search得到以下结果,主要分为2个部分:
第一部分是对基因位置的描述:
第二部分是对预测蛋白序列和RNA序列的描述
可以通过复制的方法把序列另存为.txt文件,为方便可以改后缀名为pep(不建议在命名中出现中文和空格)
E:\Program Files\hmmer>hmmsearch pf00172.hmm Monascus_ruber.pep >pf00172.monascus_ruber
在文件夹中查看pf00172.monascus_ruber文件获取比对(查询)结果
可以看到inclusion threshold 上方4个可信的基因序列,根据sequence名称可以在Monascus_ruber.pep文件中找到对应序列。
领取专属 10元无门槛券
私享最新 技术干货