首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

速来围观!——三种NCBI常见数据库

在微生物测序分析中,常常需要对未知的核酸或蛋白序列进行物种,功能或类别注释。注释方法种类较多,其中最常用的是与一些标准数据库进行相似性搜索,也就是序列比对。因此,数据库的优劣对注释结果至关重要。本期小编为大家带来的是NCBI上的三个重要的数据库—NR/NT,Taxonomy和RefSeq。

NR/NT 数据库

NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(通过已知或可能的读码框推断而来)以及专门蛋白数据库中的序列号。NR库相当于一个以核酸序列为基础的交叉索引,将核酸数据和蛋白数据联系起来。NT(Nucleotide Sequence Database),核酸序列数据库,是NR库的子集。

NR和NT库都可以通过NCBI(National Center for Biotechnology Information,美国国立生物技术信息中心)进行在线BLAST,也可以在ftp://ftp.ncbi.nih.gov/blast/db地址中将数据直接下载下来,需要注意的是,NR和NT库是被切分为以数字命名的子数据库上传的(如下图所示),将所有的子数据库放到同一个目录下,解压缩后构建索引文件即可。

Taxonomy 数据库

‍‍

NCBI的分类数据库,包括大于7万余个物种的名字和种系,这些物种都至少在遗传数据库中有一条核酸或蛋白序列。其目的是为序列数据库建立一个一致的种系发生分类学。截止发稿日为止该数据库所包含的物种数目统计表如下:

表1 Taxnomoy数据库物种数目统计表

下载文件:

https://ftp.ncbi.nih.gov/pub/taxonomy 下载gi_taxid.nucl.dmp.gz(NT记录ID号与taxid对应关系),gi_taxid.prot.dmp.gz(NR记录ID号与taxid对应关系)和taxdump.tar.gz三个文件;

names.dmp

names.dmp文件共包含4列,以“”分割,各列描述如下:

其中tax_id即为taxonomy的记录号,name_txt即对应tax_id号的物种名称。

nodes.dmp

nodes.dmp文件共包含13列,以“”分割,各列描述如下:

其中,物种分类注释时需要tax_id(Taxonomy记录号),parent tax_id(上一层分类级别的tax_id)和rank(该tax_id所处的分类层级)。

RefSeq数据库

RefSeq(the reference sequence database,https://www.ncbi.nlm.nih.gov/refseq/ ).参考序列数据库,包含RefSeq_genomic(NCBI genomic reference sequences),RefSeq_protein(NCBI protein reference sequences)和RefSeq transpans(NCBI transpans reference sequences)具有生物意义上的非冗余基因,转录本和蛋白质序列,是经过NCBI和其他组织校正的数据库,使用人类基因命名委员会定义的术语,并且包括了官方的基因符号和可选的符号。RefSeq记录有三种可以获得的状态:预测的、临时的和检查过的(reviewd)。预测的RefSeq记录是来自于那些未知功能的cDNA序列,它们有一个预测的蛋白编码区;临时的RefSeq记录还没有被检查过,它们是有自动的程序产生的;检查过的记录代表了目前关于一个基因和它的转录子的知识的汇编,它们很多都来自于GenBank记录、人类基因组命名委员会和OMIM,RefSeq标准为人类基因组的功能注解提供一个基础。

RefSeq数据库和GenBank数据库的区别在于:GenBank是一个开放的数据库,对每个基因都含有许多序列。很多研究者或者公司都可以自己提交序列,另外这个数据库每天都要和EMBL和DDBJ交换数据。genbank的数据可能重复或者不准。而RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。

NCBI作为生信分析最牛逼的网站,还包含有很多其他重要的数据库,后面几期小编将为大家逐个介绍,敬请关注!

供稿人:微生物事业部 韩娜

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171220G0VQMW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券