Blast (Basic Local Alignment Search Tool)作为一种序列相似性比对工具,被认为是生物信息分析必须掌握的一款软件。不管你是做两序列相似性的简单比对,还是引物特异性、基因组成环等个性化分析。因此,许多看似高大上的基因分析,都可归类于序列间的比较,因此Blast是生信分析中基础性的工具。今天小编要放大招了,重中之重,送给还在捶胸顿足被一堆数据吓哭的你。
本地Blast
本地Blast是该款软件的本地模式,用户可在离线状态下完成目标序列的相似性比对分析。此种模式不仅可以避免在线提交序列的繁琐和不稳定性,更重要的是能够为用户提供个性化的服务。若用户需要指定特殊数据库或大量序列的比对,本地Blast则是最优选择。那么,如何进行本地Blast呢?接下来小编为您献上做本地Blast的基本原则,若您能掌握以下要点,不管对快速应用本地blast还是未来拓展个性化都有很大帮助。
1
掌握三个基本要素
分别是数据库(database)、待比对序列(query)和目标序列(subject)。基于这三个基本元素,本地Blast运行方式即是用户选定目标序列(subject)并将其构建成数据库,然后用待比对序列(query)在数据库中搜索,待比对序列遍历数据库中的每一条目标序列后得到最终比对结果。
本地Blast概述:本地Blast是一款集成软件,其中包括blastp、blastx和blastn等模块,通过调用不同的比对模块,blast实现了五种可能的序列比方式:
blastp:蛋白序列与蛋白库作比对,直接比对蛋白序列的同源性。
blastx:核酸序列与蛋白库作比对,将核酸序列先翻译成蛋白序列,再将其与蛋白库作比对。
blastn:核酸序列与核酸库的比对,直接比对核酸序列的同源性。
tblastn:蛋白序列对核算库的比对,现将核酸库翻译成蛋白库,再将蛋白序列与翻译后的蛋白库进行比对。
tblastx:核酸与核酸数据库在蛋白质水平比较
2
学会搭建运行环境
(1)安装软件
下载:
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy/2.2.9/,根据该网址下载与电脑匹配的版本即可。
安装:
双击exe文件完成Blast的安装,相应安装路径下会bin、data和doc这三个文件,分别是程序目录、数据目录和参考文档目录,用于存放输入数据等文件。
设置环境变量:
计算机→属性→高级系统设置→环境变量→D:\Software\Blast\bin (blast安装路径)。环境变量设置后,用户不论在哪个路径下均可直接调用软件,不需要再设置路径。
测试:
上述步骤完成后只有在路径正确的基础上才能运行Blast,用户可根据步骤开始→运行→输入“cmd”→确定后进入DOS窗口,在该窗口输入“blastall”,通过运行“blastall”查看软件是否安装成功,若报错则需查看环境变量设置是否正确。若安装成功将会显示blastall的所有参数说明,如下图:
(2) 构建数据库
数据库来源:
用户根据自己的需求将目标序列汇总,形成fasta文件。
数据库格式化:
在DOS界面中进入目标fasta文件所在目录,运行程序
核酸数据库:formatdb.exe -i input_db -p F -o F
蛋白数据库:formatdb.exe -i input_db -p T -o T
[参数解读]:
-i :需要格式化的数据库名称
-p:建库类型( F-核苷酸序列数据库,T-蛋白质序列数据库),该参数取决于用户需要构建数据库的序列类型,默认为T
-a:输入数据库的格式(T-ASN.1,F-FASTA),默认为T
-o:是否分析序列名并建立相应目录(T -解析序列标识并且建立目录,F –不建立目录)
-l:可改变用于记录运行过程的log文件的命名
-n:定义新生成数据库的名称,为方便用户下次调用数据库因此,在软件安装成功的基础上能否成功构建数据库,一是取决于输入文件格式是否正确,另一方面是文件路径是否正确设置。为方便用户对分析数据进行管理,小编提供两种方法用于输入文件的管理。一种是为避免Blast安装路径bin目录冗余混乱,建议将输入文件放置在db目录新建的项目文件中,通过shift+右键+在此处打开命令窗口运行Blast,另一种是通过相对路径的方式调用输入文件。
3
比对方式
本地比对(以Blastn为例)
blastall -p blastn -d b_seq.fasta -i test_seq.fasta -o out.txt
[参数解读]:
-p:blastn/blastp/blastx/tblastn/tblastx分别对应不同的数据比对方式
-o:结果输出到文件(下图右),若无-o设置则输出在屏幕上(下图左):
-e:指定一个实数,过滤掉期望值大于这个数的比对结果,默认为10,建议设置为1E-5
-F:用来屏蔽简单重复和低复杂度序列( T/F),默认为T。可提高比对的精确度,但对于引物特异性检测等分析,建议设置为F。
-m:设定输出格式,-m~6展示了subjects间的比对结果,-m8~9以表格形式展示比对结果,默认。
-v:输出中每一个query的比对列表最多显示subject个数
-b:每个query最多显示与多少条subject的比对条形图(即query的结果中">"的个数)
-T:是否输出HTML格式的比对结果
本地Blast为核酸和蛋白间的多种比较方式提供了平台,方便用户构建个性化数据库,同时丰富了比对结果可视化。这些所有功能的实现都需要用户通过参数设置与软件平台形成交互作用,从而得到需要的结果。
微生物基因组 文案|马贝贝
领取专属 10元无门槛券
私享最新 技术干货