Blast(basic local alignment search tool) 局部序列比对基本检索工具,是NCBI开发的一款基于序列相似性的数据库搜索程序。主要的BLAST程序有以下几种:
BLAST的在线版https://blast.ncbi.nlm.nih.gov/Blast.cgi可以方便的进行单一的同源性序列搜索,但是不方便进行大批量的数据操作,也不能建立自己的数据库。接下来小编就要教大家如何建立本地的BLAST数据库。
基于BLAST优秀的算法,BLAST程序可以轻松的在普通的个人电脑中运行。
BLAST程序的官方下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST
在网页中我们可以看到很多文件,其中*.md5是效验文件,我们可以忽略它,现在一般是x64的操作系统,我们可以根据自己的电脑系统,下载x64的win或Linux或macosx版本。
小编下载的是windows的一个压缩包版本,解压后得到这样一个文件夹:
进去后可以看到目录结构并不复杂,readme文件对BLAST作了一个简要的介绍:
bin文件夹通常是主程序的文件夹,我们进去后看到很多*.exe的可执行程序,但是双击后并不能运行。
这种情况一般是需要用命令提示符来运行。
通过win+R 输入cmd命令,再通过cd 命令进入当前的bin 文件夹,或者直接在bin文件夹内按住shift和鼠标右键,选择在此文件夹打开命令提示符
我们通过makeblastad -help命令,查看创建本地数据库的帮助文件
可以发现需要输入文件,在NCBI数据库,我们可以方便地下载我们需要的序列文件,下载后复制到bin文件夹内,方便操作。
小编在这里下载了一个红曲基因组的fasta文件
并复制到bin文件夹下
之后执行命令 makeblastdb in sequence.fasta -dbtype mucl -out sesameESTdb
这里取名为sesameESTdb是受某教程误导,大家可以按习惯起名字。
-in 后面是空格加输入数据库文件的名称,-dbtype后面是空格加数据库类型(核苷酸是nucl,蛋白质是prot),-out后面是空格加输出数据库名称
接下来就可以拿目标序列来比对了,由于手头上没有相似的序列,小编直接从sequence.fasta中复制了一段,另存为test.fasta进行比对。
输入 blastn -query test.fasta -db sesameESTdb -out 001.txt
可以看到在bin文件夹下出现了一个001.txt文件,打开后可以查看结果:
至于结果的含义大家可以参考BLSAT官方文档
ref:
Zheng Zhang, Scott Schwartz, Lukas Wagner, and Webb Miller (2000), "A greedy algorithm for aligning DNA sequences", J Comput Biol 2000; 7(1-2):203-14.
本文来自企鹅号 - 手机与电脑媒体
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文来自企鹅号 - 手机与电脑媒体
如有侵权,请联系 cloudcommunity@tencent.com 删除。