Bigbang BLAST

今天是生信星球陪你的第77天

你想找辆共享单车,发现满街都是别家车,没有一辆你能骑。

你想学点生信,搜了“初学者教程”,满眼尽是高大上,没有一句能看懂。

终于你跨越茫茫宇宙,来到生信星球,发现了初学者的新大陆!

身处信息大爆炸时代,无限信息波涛汹涌,如何去繁存简?

活跃生物多学科领域,海量测序数据更迭,怎样千里挑一?

一声巨响,NCBI为生命科学带来了BLAST

.背景知识

发展进程:

上世纪80年代中后期,核酸、蛋白质序列与结构的数据库中积累了大量的数据。1988 年 11 月,位于美国首都华盛顿北郊的美国国家生物技术信息中心(National Center for Biotechnology Information,简称 NCBI)成立。它隶属美国国家医学图书馆(National Library of Medicine,简称NLM),而 NLM 又是美国国家健康研究院(National Institutes of Health,简称NIH)的一个分支机构。NCBI 建立初期,仅 8 名人员,经过近 30 年的建设,NCBI 已发展成国际上最大的生物信息中心。NCBI 拥有上百个数据库和软件工具,包括著名的生物医学文献摘要数据库 PubMed、参考序列数据库 RefSeq等。1989 年,NCBI 接管了核酸序列数据库 GenBank 。

如何将信息中心的序列进行有效搜索?带着这个目的,大卫·李普曼(David Lipman)和同事共同开发了搜索软件BLAST(Basic Local Alignment Search Tool)

BLAST主页

今天,我们每个从事生物领域的人都在使用,慢慢形成了“国内网速测试用百度,国外网速测试用blast”的习惯。BLAST已经成为序列比对软件代名词。BLAST经历了20多年的升级,功能、性能一版比一版好。2009年是BLAST发展的关键一年,升级版——BLAST+出现,BLAST+使用了BLAST的核心算法,延 续了BLAST的优势功能:命令行模式功能增强;新增了update_blastdb.pl等程序;将原来的blastall分离成blastn, blastp,blastx等作为独立的程序,便于管理维护

主要分类:

BLAST采用了一种局部序列比对的算法分析两个序列中的相似区域,并计算统计显著性。主要包括四大类:

1. Nucleotide BLAST

blastn: 将待查询的核酸序列及其互补序列放到核酸库中的一种查询,库中存在的每条已知序列都将同所查序列作一对一的核酸序列比对

2. Protein BLAST

blastp: 蛋白序列到蛋白库中进行查询,库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对

3. BLASTX

核酸序列到蛋白库中进行查询:先将待查询的核酸序列按六种可读框架(逐个向前三个碱基和逐个向后三个碱基读码)翻译成蛋白质序列,再去蛋白库对翻译成的每一条序列作一对一的蛋白序列比对

4. TBLASTN

蛋白序列到核酸库查询:先将核酸序列数据库中的核酸序列按六种可读框架翻译成蛋白质序列,然后将待测蛋白序列再与翻译后的核算数据库比对

.使用方法

在线比对:

使用最多的就是在线模式了,搜索blast第一个就是

下面以使用最频繁的blastn为例:

在线使用

结果显示:

在线结果1-2

在线结果3

本地比对:

进行序列比对的时候,你有没有遇到过这种问题?

NCBI网站太慢,好不容易提交的序列被无情的网站自动刷新给刷没了;

手上序列太多,几百条,手动点击什么时候是个头?

这些机械化的工作,有没有人能帮我做!!!

有的!让不辞辛苦的服务器帮助你,高效、省时、便利

问个问题,半个小时能干什么?

提交十几条序列到NCBI blast?或者做个小小的实验?

又或者~比对500条序列到nt库?中间吃点东西散散步就干完活了【服务器(使用12线程)】

并且结果直接得到像这种~ 基因号、学名、俗名、比对结果信息一目了然

半小时,你买不了吃亏也买不了上当~走过路过,机会难得~【话虽这么说,但豆豆花花不卖,只做分享】

运行结果如何配置本地blast呢?

第一步,你要有一个服务器或者性能好一点的电脑(台式机、笔记本都可以),推荐linux系统(Ubuntu或CentOS均可)或虚拟机、双系统或git bash,也有windows版本不过豆豆没有用过

第二步,下载blast+软件,下载地址

第三步,下载nt、nr库

先确保电脑上有300G+空闲空间

两种方式:

使用blast+ 自带的 直接运行【优点:简单、日后升级数据库方便;缺点:速度慢,容易卡死】;

wget手动下载,地址 【优点:速度快,可断点续传;缺点:日后更新的话需要再次下载】

我这里选择的是wget下载方式

这里列出我配置的nr数据库的下载结果,平均速度726KB/s,总大小49G压缩文件,下载时间19h40m21s

下载库

第四步,配置本地.ncbirc文件

第五步:转换一下数据格式

拿来数据不要急着分析跑程序,先了解你的数据,看他们怎么命名,思考如何进行修改,前期工作都要把精力放在这里,跑流程是水到渠成的事

一般测序公司返回的数据都是 格式,豆豆处理过一些数据发现,他们每个公司的格式都不统一,命名无规则,十分混乱,常见的有这几种:

测序格式

转换格式需要一些linux基础知识,会涉及到命令,简单掌握这几个就可以让数据变成你想要的格式,包括批量替换500个序列的后缀、批量处理文件名中的特殊字符、批量将单纯的序列变为fasta文件(并且能将每个文件名对应进fasta的第一行gene id)等

也可以参考

生信小白第23天--测序数据批量操作

全部转换为fasta后,用 ,下面就对all.fasta进行操作

第六步:运行blast

blast+提供了5个程序

一个范例程序:

一些参数的设置:

如果设置了输出格式11,那么后来怎么转换呢?

第七步:查看结果

本地blast应该是比在线版更清楚直观的表现形式了

本地blast查看结果

初学生信,很荣幸带你迈出第一步。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180726G12ENI00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券