专栏首页生信修炼手册详解参考基因组的下载方式

详解参考基因组的下载方式

欢迎关注”生信修炼手册”!

在数据分析中,经常需要下载物种的参考基因组序列。通常情况下,可以考虑以下3个数据库

  1. NCBI
  2. Ensembl
  3. UCSC

这三个数据库都是公共的大型数据库,里面存储了很多物种的基因组序列。这3个数据库作为第一选择,如果这三个数据库中都没有你要寻找的物种,可以尝试寻找该物种特有的数据库。

同一个基因组在以上三大数据库中的记录还是稍有不同的,以human为例,在NCBI中的链接如下

https://www.ncbi.nlm.nih.gov/genome/?term=human

可以看到,基因组的版本为GRCh38.p12。对于每条染色体,提供了RefSeqINSDC两种编号。

在下载时,可以从红色方框标记的3处地方进行下载, 其中genome链接可以直接下载序列,如果该物种同时提供了RefSeq和Genebank,则此链接下载的是RefSeq的序列;如果只有GeneBank,则此链接下载的是GeneBank的序列。

1. Genebank

genebank数据库为每个组装的版本提供了一个GCA开头的编号,human的最新版编号为GCA_000001405.27。从genbank下载的序列中,每条序列的ID是上图中的INSDC编号,1号染色体对应的编号如下

CM000663.2

2. RefSeq

genebank数据库中为每个组装的版本提供了一个GCF开头的编号,human的最新版编号为GCF_000001405.38`。从genbank下载的序列中,每条序列的ID是上图中的RefSeq编号,1号染色体对应的编号如下

NC_000001.11

其实Genebank和RefSeq中序列的内容是完全相同的,只是序列标识符有区别而已。GeneBank是开放的,所有的人都可以向其中提交数据,而RefSeq是需要审核的,保证了数据的可靠性。

NCBI提供的基因组序列包含以下4种水平

  1. chromsome
  2. unlocalized-scaffold
  3. alt-scaffold
  4. patch

chromsome就是组装到染色体水平的序列,比如chr1这种序列;unlocalized-scaffold是无法定位到染色体的scaffold序列,比如chrUn这种序列,这两种格式的序列共同组成了基因组的primary_assembly版本。

alt-scaffold的染色体定位是清楚的,是染色体上部分区域的同源序列,比如chr3_KI270934v1_alt这种序列,对于多倍体生物,同源染色体会存在杂合,所以会出现alt的现象;patch指的是补丁序列,其染色体定位也是清楚的,是对已有序列的补充和纠正,在未来的版本中,会更新到染色体上去。

NCBI下载的序列并不直接提供chr1这种我们常见的编号,如果想要这种编号,可以考虑从UCSC和Ensembl进行下载。

UCSC为基因组的不同版本提供了缩写,对于human而言,有hg38, hg19等。从下图可以看到,UCSC的版本和NCBI的版本相对应,比如hg38对应的版本为GRCh38。

hg38基因组序列对应的下载链接为

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/bigZips/hg38.fa.gz

UCSC提供的基因组序列只包含chromsome, unlocalized-scaffoldalt-scaffold 这三种序列,其标识符是chr1这种格式, 需要注意的是,线粒体的标识符为chrM

Ensembl提供的基因组序列和NCBI的Genebank数据库完全对应,human的截图如下

FTP地址如下

ftp://ftp.ensembl.org/pub/release-93/fasta/homo_sapiens/dna/

Ensembl提供了以下两种版本

  1. top_level
  2. primary_assembly

top_level版本和NCBI提供的版本一致,包含了所有的组装结果;而primary_assembly版本只包含chromsome和unplaced-scaffold序列。

这两个版本用处也不大一样,primary_assembly不包含alt-scafflod, 更适用于SNP的分析, 因为SNP就是在分析基因组上的杂合程度,而top_level版本适合于SNP以外的场景,更加完整的序列可以保证良好的比对率。

对于同一个版本, 还提供了不同的序列类型

  1. dna
  2. rm
  3. sm

dna就是原始的基因组序列,rmsm在原始序列的基础上标记了其中的低复杂度序列,其中rm采用了硬编码的形式,删除了基因组中的低复杂度序列,sm采用了软编码的方式,将低复杂度序列用小写字母表示。通常选择dna版本进行下载即可。

最后强调一点,Ensembl提供的序列标识符也是我们常见的染色体编号的形式,只不过是不带chr前缀的,而且线粒体用MT表示。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文分享自微信公众号 - 生信修炼手册(shengxinxiulian),作者:lzyg

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-09-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 使用Clustal进行多序列比对

    多序列比对在保守区域鉴定,系统发育分析,motif识别等多个领域发挥重要作用,是生物信息数据分析必备的基础技能之一。Clustal是一款经典的多序列比对工具,支...

    生信修炼手册
  • 使用trim_galore对NGS数据进行质量过滤

    cutadapt软件可以对NGS数据进行质量过滤,FastQC软件可以查看NGS数据的质量分布,trim_galore将这两个软件封装到一起,使用起来更加的方便...

    生信修炼手册
  • SAM/BAM文件格式简介(二)

    本文重点介绍下SAM文件中比对部分的含义,比对部分的信息是\t分隔的11列文件,每列的含义如下

    生信修炼手册
  • 手把手教你深度学习强大算法进行序列学习(附Python代码)

    本文共3200字,建议阅读10分钟。 本文将教你使用做紧致预测树的算法来进行序列学习。

    数据派THU
  • 生物信息学初识篇——第二章:序列比对(4)

    多序列比对的定义很简单,两条以上的生物序列进行的全局比对就是多序列比对。为了看清楚每一列的保守情况和理化性质,通常会给多序列比对根据不同的原则赋予丰富的色彩。目...

    DoubleHelix
  • 实习生的监控算法: 利用时间序列模型进行曲线预测

    各位老司机晚上好啊,这是我实习阶段的最后一篇文章,关于时间序列模型在曲线预测上的应用,会展示出一个较为完整的时间序列建模的过程。主要讲述了如何进行曲线预测以便可...

    解飞
  • 生物信息学初识篇——第二章:序列比对(5)

    在 EMBL Clustal Omega 比对结果的 Result Summary 标签下有Jalview按钮。这个按钮可以快速启动 Jalview,但这里启动...

    DoubleHelix
  • 序列预测问题的简单介绍

    序列预测与其他类型的监督学习问题不同。这个序列在观察结果上被强加了一个命令:当训练模型和做预测时序列必须保存。通常,包含序列数据的预测问题被称为序列预测问题,尽...

    AiTechYun
  • 开发 | 如何把时间序列问题转化为监督学习问题?通俗易懂的 Python 教程

    AI科技评论按:本文作者 Jason Brownlee 为澳大利亚知名机器学习专家,对时间序列预测尤有心得。原文发布于其博客。 Jason Brownlee ...

    AI科技评论
  • 如何把时间序列问题转化为监督学习问题?通俗易懂的 Python 教程

    AI 研习社按:本文作者 Jason Brownlee 为澳大利亚知名机器学习专家,对时间序列预测尤有心得。原文发布于其博客。AI 研习社编译。 ? Jaso...

    AI研习社

扫码关注云+社区

领取腾讯云代金券