网址:https://blast.ncbi.nlm.nih.gov/Blast.cgi
运行方式:本地或web
基本的BLAST工具包括:
图1 BLAST
blastn:核酸搜核酸数据库 blastp:蛋白质搜蛋白质数据库 blastx:DNA用所有可能的阅读框翻译成翻译成蛋白后搜蛋白数据库 tblastn:查询的蛋白序列搜索核酸数据库中,DNA序列翻译后的蛋白序列 tblastx:核酸序列翻译成蛋白质后搜索核酸数据库中的核酸序列翻译后的蛋白质序列。也就是查询的蛋白和数据库中的DNA都翻译成蛋白进行比对。
举一个例子说明
图1可以看到,输入框可以输入accesion number,gi,或FASTA序列,也可以上传文件。
job title给查询的任务取个名字。
图2 参数设置
图3 算法参数设置
图4 结果1
图5 结果2
图6 结果3
图7 结果4
web版的blast方便,快捷,容易操作,数据库更新快。确定是不利于操作大力量数据,也不能自定义搜索的数据库,只能对NCBI提供的数据库进行序列相似性分析。所以
优点:速度快,灵活性大,可自己配置库
缺点:序列数据库下载量大,并且更新麻烦,需要重新下载
#启动环境
$ source ~/miniconda3/bin/activate
$ conda install blast
比较简单
首先在ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/下载最新版本的BLAST程序。
wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.8.1+-x64-linux.tar.gz
Connecting to ftp.ncbi.nlm.nih.gov (ftp.ncbi.nlm.nih.gov)|130.14.250.12|:21... connected.
Logging in as anonymous ... Logged in!
==> SYST ... done. ==> PWD ... done.
==> TYPE I ... done. ==> CWD (1) /blast/executables/LATEST ... done.
==> SIZE ncbi-blast-2.8.1+-x64-linux.tar.gz ... 241992963
==> PASV ... done. ==> REST 173905320 ... done.
==> RETR ncbi-blast-2.8.1+-x64-linux.tar.gz ... done.
Length: 241992963 (231M), 68087643 (65M) remaining (unauthoritative)
ncbi-blast-2.8.1+-x64-linux.tar. 100%[++++++++++++++++++++++++++++++++++++++++================>] 230.78M 2.92MB/s in 33s
2019-01-23 13:30:52 (1.98 MB/s) - ‘ncbi-blast-2.8.1+-x64-linux.tar.gz’ saved [241992963]
接下来解压缩
$ tar -xzvf ncbi-blast-2.8.1+-x64-linux.tar.gz
$ rm ncbi-blast-2.8.1+-x64-linux.tar.gz
$ mv ncbi-blast-2.8.1+/ blast
$ cd blast
$ cd bin
$ ls
可执行文件显示如下
blastdb_aliastool blastn deltablast makeblastdb rpsblast tblastx
blastdbcheck blastp dustmasker makembindex rpstblastn update_blastdb.pl
blastdbcmd blastx get_species_taxids.sh makeprofiledb segmasker windowmasker
blast_formatter convert2blastmask legacy_blast.pl psiblast tblastn
要进行序列比对,得有以下几个条件 第一,有查询序列,并有特定格式 第二,有目标序列库,蛋白库还是DNA库 第三,确定查询工具,blastn,blastp,blastx,tblastx,tblastn 第四,设定合适参数开始运行 具体用法BLAST手册《BLAST Command Line Applications User Manual》
BLAST database 获取blast database的最好方法是NCBI下载。 通过运行
$ update_blastdb.pl --decompress nr [*]
程序,可以下载预先格式化的NCBI BLAST database。
#先创建blast_db目录
~$ mkdir blast_db
$ cd blast_db
# 耗时很长,放入后台
$ nohup time update_blastdb.pl nt nr > log &
$ nohup time tar -zxvf *.tar.gz > log2 &
说明:nt为核酸,nr为蛋白质 监控库文件是否下载完成,如何判断? 1. 查看log文件是否有提示;2. 查看update_blastdb.pl是否还在运行:执行ps -aef | grep update_blastdb.pl | grep -v update_blastdb.pl 命令,如过没有结果,则说明没有运行了。
可以获得的更多的NCBI BLAST数据库信息,请参考官方说明。