首页
学习
活动
专区
工具
TVP
发布

建立本地的Blast数据库

Blast(basic local alignment search tool) 局部序列比对基本检索工具,是NCBI开发的一款基于序列相似性的数据库搜索程序。主要的BLAST程序有以下几种:

BLAST的在线版https://blast.ncbi.nlm.nih.gov/Blast.cgi可以方便的进行单一的同源性序列搜索,但是不方便进行大批量的数据操作,也不能建立自己的数据库。接下来小编就要教大家如何建立本地的BLAST数据库。

基于BLAST优秀的算法,BLAST程序可以轻松的在普通的个人电脑中运行。

BLAST程序的官方下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST

在网页中我们可以看到很多文件,其中*.md5是效验文件,我们可以忽略它,现在一般是x64的操作系统,我们可以根据自己的电脑系统,下载x64的win或Linux或macosx版本。

小编下载的是windows的一个压缩包版本,解压后得到这样一个文件夹:

进去后可以看到目录结构并不复杂,readme文件对BLAST作了一个简要的介绍:

bin文件夹通常是主程序的文件夹,我们进去后看到很多*.exe的可执行程序,但是双击后并不能运行。

这种情况一般是需要用命令提示符来运行。

通过win+R 输入cmd命令,再通过cd 命令进入当前的bin 文件夹,或者直接在bin文件夹内按住shift和鼠标右键,选择在此文件夹打开命令提示符

我们通过makeblastad -help命令,查看创建本地数据库的帮助文件

可以发现需要输入文件,在NCBI数据库,我们可以方便地下载我们需要的序列文件,下载后复制到bin文件夹内,方便操作。

小编在这里下载了一个红曲基因组的fasta文件

并复制到bin文件夹下

之后执行命令 makeblastdb in sequence.fasta -dbtype mucl -out sesameESTdb

这里取名为sesameESTdb是受某教程误导,大家可以按习惯起名字。

-in 后面是空格加输入数据库文件的名称,-dbtype后面是空格加数据库类型(核苷酸是nucl,蛋白质是prot),-out后面是空格加输出数据库名称

接下来就可以拿目标序列来比对了,由于手头上没有相似的序列,小编直接从sequence.fasta中复制了一段,另存为test.fasta进行比对。

输入 blastn -query test.fasta -db sesameESTdb -out 001.txt

可以看到在bin文件夹下出现了一个001.txt文件,打开后可以查看结果:

至于结果的含义大家可以参考BLSAT官方文档

ref:

Zheng Zhang, Scott Schwartz, Lukas Wagner, and Webb Miller (2000), "A greedy algorithm for aligning DNA sequences", J Comput Biol 2000; 7(1-2):203-14.

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171227G0AXNM00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券