首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

利用Pfam数据库建立本地的蛋白质比对数据库

上一篇文章中我们简单地介绍了Pfam数据库

那么如何将Pfam数据库转化为本地数据库呢?我们可以用HMMER软件。

HMMER被用于在序列数据库中搜索同源序列,产生同源序列比对,所使用的方法是基于隐马尔科夫模型。HMMER常常与profile数据库连用,例如Pfam等。

HMMER可以在windows下用命令提示符运行

解压后进入HMMER文件夹,为方便建库比对,可以把相关蛋白质序列复制到HMMER文件夹中。

例如上文从Pfam中下载的seed文件

在文件夹空白处按住鼠标右键和shift,选择在当前文件夹打开命令提示符(或通过win+r cmd cd 命令进入HMMER文件夹)

建库命令:

可以在HMMER文件夹下看到一个新的名为pf03902.hmm的文件

用NOTEPAD++打开pf03902.hmm文件,可以看到hmm文件是txt文件格式的转化。

横坐标为20种氨基酸,纵坐标代表不同氨基酸的评分。

我们可以以格式化的seed文件也就是hmm文件作为种子,去搜索基因组中相关的蛋白质序列。

由于hmm中是氨基酸序列文件,我们先要将基因组文件翻译成蛋白质序列。

基因预测的软件有很多,比较方便的在线软件是softberry里面的FGENESH

http://linux1.softberry.com/berry.phtml? topic=index&group=programs&subgroup=gfind

我们上传一段从NCBI下载的红曲基因组序列(Monascus ruber),点击search得到以下结果,主要分为2个部分:

第一部分是对基因位置的描述:

第二部分是对预测蛋白序列和RNA序列的描述

可以通过复制的方法把序列另存为.txt文件,为方便可以改后缀名为pep(不建议在命名中出现中文和空格)

E:\Program Files\hmmer>hmmsearch pf00172.hmm Monascus_ruber.pep >pf00172.monascus_ruber

在文件夹中查看pf00172.monascus_ruber文件获取比对(查询)结果

可以看到inclusion threshold 上方4个可信的基因序列,根据sequence名称可以在Monascus_ruber.pep文件中找到对应序列。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180105G0XGE400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券