首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Windows系统下本地Blast+安装与使用图文教程

本地Blast+安装与使用图文教程

本地Blast-图文教程

一、本地Blast用途介绍

二、本地Blast的安装

1、程序安装

2、安装流程

3、用户环境变量设置

三、Blast本地数据库的构建

1、数据的获取

2、数据库的格式化

四、Blast的使用方法

1、query序列的准备

2、查询命令的准备

3、比对结果说明

一、本地Blast用途介绍:

在我们平时的学习、实验、和数据分析的时候经常会遇到将某条序列或者某个fasta文件比对到某个数据库的情况。虽然现在在线做序列比对的数据库网站非常的丰富, 但有时候受到网速的制约和需要根据自己的实验目的进行个性化的数据比对时,我们还是会用到本地的Blast(Basic Local Alignment Search Tool,基于本地的比对搜索工具)。下面就详细介绍一下本地的Blast的安装及使用。

二、本地Blast的安装:

1、程序安装

网站上提供了Windows、Linux、macOS等版本的本地Blast,请下载与自己电脑系统相适应的版本。不知道自己电脑版本的朋友,可以右击“计算机”,选择“属性”查看系统类型。这里我们用ncbi-blast-2.7.1为例。

2、安装流程

下载完成后,双击.exe安装程序的进行安装,默认安装到C盘,但大部分人都不喜欢把软件安装到系统盘,所以我们在安装的过程中设置安装到G:\blast-2.7.1盘,并且生成bin和doc两个子目录,其中其中bin是程序目录, doc是文档目录,这样就安装完成。然后在目录下新建文件夹,重命令为。

3、用户环境变量设置

右键点击“我的电脑”-属性,然后“高级系统设置”选项-“环境变量”,在用户变量下方点击“新建”-变量名:BLASTDB,变量值:G:\blast-2.7.1\db(即电脑上安装好后新建的db文件夹的路径)。在系统变量下方“Path”添加变量值:G:\blast-2.7.1\bin(即电脑上bin文件夹位置)。下图的GIF是我设置环境变量的过程,因为我之前已经设置过了,所以大家可以参考看看。

三、Blast本地数据库的构建

1、数据的获取

直接从NCBI或者其他数据库网站下载所需序列做成数据库,或者自己已有的测序数据(格式必须是fasta,名字可以自己随便命名)。我们做小麦族的基因组、cds、pep序列以及gff3的注释文件主要是从EnsemblPlants上下载,网址:,点此进入

2、数据库的格式化

2.1我们从EnsemblPlants上下载拟南芥蛋白数据库,下载方法如图所示。

2.2我们将下载的蛋白质数据解压到G:\blast-2.7.1\db中,如图所示。

2.3在db文件夹中未选中任何目标的情况下,安住,在文件夹空白处右击鼠标,选择,打开如图所示窗口。我用的是win10的系统可以通过这种方式快速进入db文件夹的位置,如果是其他版本的windows系统,可能需要通过运行cmd进入db文件夹所在的位置。

打开命令窗口后输入命令:

1

其中为你要格式化的数据库的名称,根据你自己的数据库的名称进行改动,记得加上后缀名.fa;dbtype后的表示数据库的类型,表示氨基酸序列的数据库,如果是核苷酸序列则用。命令行中数据库格式化完成后显示下图。

而在db文件夹下,则会多出一系列文件。

如图

四、Blast的使用方法

1、query序列的准备:

在G:\blast-2.7.1文件夹下创建的文本文件,将需要查询到的序列以fasta格式保存到中,我们已两条拟南芥的蛋白序列为例。

2、查询命令的准备:

在G:\blast-2.7.1文件夹下创建的文本文件,使用blast的命令:

1

相关参数说明:

程序执行命令,exe 前的程序根据自己的需要而换,包括blastn,blatp,tblastx等bin文件夹中所包含的程序;

后面选择你所要用的程序,blastn,blastp,tblastx 等;

后接查询序列的文件名称;

后接格式化好的数据库名称;

后接要输出的文件名称及格式,格式形式包括0-10,其中6和0最常用,可以自己尝试。

的参数设置可以根据自己电脑的性能进行设置,笔记本推荐不超过2,从而提高比对效率。

-num_alignments:输出数据库中能与Query比对上的的序列数目。

-max_target_seqs:最多允许比对到数据库中的序列数目,参数仅适用于outfmt >4。

-perc_identity:比对的最低相似度

保存后再将重命名为,此时已经将一个文本文件修改为windows中的cmd命令,双击即可运行。

3、比对结果说明

out.txt可以拖拽值Excel中打开,输出的文件是不包括表头的。

每一列分别表示:

A:Query_id

B:Subject_id

C:Identity

D:Align_length

E:Miss_match

F:Gap

G:Query_start

H:Query_end

I:Subject_start

J:Subject_end

K:E_value

L:Score

E值(Expect):表示随机匹配的可能性,例如,E=1,表示在目前大小的数据库中,完全由机会搜到对象数的平均值为1.E值越大,随机匹配的可能性也越大。E值接近零或为零时,具本上就是完全匹配了。通常来讲,我们认为E值小于10-5 就是比较可性的S值结果。我们可以想象,相同的数据库,E=0.001时如果有1000条都有机会S值比现在这个要高的话,那么不E设置为10-6时可能就会只得到一条结果,就是S值最可靠的那个。但是E值也不是万能的。它在以下几个情况下有局限性:

1)当目标序列过小时,E值会偏大,因为无法得到较高的S值。

2)当两序列同源性虽然高,但有较大的gap(空隙)时,S值会下降。这个时候gap scores就非常有用。

3)有些序列的非功能区有较低的随机性时,可能会造成两序列较高的同源性。

E值总结:E值适合于有一定长度,而且复杂度不能太低的序列。当E值小于10-5时,表明两序列有较高的同源性,而不是因为计算错误。当E值小于10-6时,表时两序列的同源性非常高,几乎没有必要再做确认。

一致性(Identities):或相似性。匹配上的碱基数占总序列长的百分数。

Score:得分值越高说明同源性越好;Expect期望值越小比对结果越好,说明因某些原因而引起的误差越小;Identities是同源性(相似性),例中所示比对的1299个碱基中只有35个不配,其他97%相同;

Gaps:是指多出或少的碱基或缺失的碱基数;缺失或插入(Gaps):插入或缺失。用”—”来表示。

此外比对的Strand则通 s. Start:和s. End判断,如上述结果的第三行. Star值大于s. End,则表示负链。

以上便是Windows系统下本地Blast的安装及使用全部教程的内容。谢谢大家。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180916G01KZ600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券