不可不知的基因组版本对应关系

不同版本对应关系

hg19,GRCH37和Ensembl75是三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC和ENSEMBL各自发布的基因组信息。

hg系列,hg18/19/38来自UCSC,也是目前使用频率最高的基因组。从出道至今我就只看过hg19了,但是建议大家都转为hg38,因为它是目前的最新版本。

基因组各种版本对应关系综合来看如下所示:

  • GRCh36 (hg18): ENSEMBL release_52.
  • GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
  • GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

ENSEMBL的版本特别复杂也很容易搞混,UCSC的版本就简单很多,常用的是hg19,最新版本为hg38。

看起来NCBI也是很简单,就GRCh36,37,38,但是里面水也很深!

Feb 13 2014 00:00    Directory April_14_2003Apr 06 2006 00:00    Directory BUILD.33Apr 06 2006 00:00    Directory BUILD.34.1Apr 06 2006 00:00    Directory BUILD.34.2Apr 06 2006 00:00    Directory BUILD.34.3Apr 06 2006 00:00    Directory BUILD.35.1Aug 03 2009 00:00    Directory BUILD.36.1Aug 03 2009 00:00    Directory BUILD.36.2Sep 04 2012 00:00    Directory BUILD.36.3Jun 30 2011 00:00    Directory BUILD.37.1Sep 07 2011 00:00    Directory BUILD.37.2Dec 12 2012 00:00    Directory BUILD.37.3

从上面可以看到,有37.1, 37.2和 37.3 等等,不过这种版本一般指的是注释在更新而基因组序列一般不变。

总之你需要记住, hg19基因组大小是3G,压缩后八九百兆

如果要下载GTF注释文件,基因组版本尤为重要。

GTF注释文件下载

NCBI:最新版(hg38)

  • ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/

NCBI:其它版本

  • ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/

Ensembl

  • ftp://ftp.ensembl.org/pub/release-75/gtf/homosapiens/Homosapiens.GRCh37.75.gtf.gz

变化上面链接中的release就可以拿到所有版本信息

  • ftp://ftp.ensembl.org/pub/

UCSC

本身需要一系列参数:

1. Navigate to http://genome.ucsc.edu/cgi-bin/hgTables2. Select the following options:clade: Mammalgenome: Humanassembly: Feb. 2009 (GRCh37/hg19)group: Genes and Gene Predictionstrack: UCSC Genestable: knownGeneregion: Select "genome" for the entire genome.output format: GTF - gene transfer formatoutput file: enter a file name to save your results to a file, or leave blank to display results in the browser3. Click 'get output'.

搞清楚版本关系后就可以进行下载了。

UCSC基因组下载

UCSC里面下载非常方便,只需要根据基因组简称来拼接url:

http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz

或者用shell脚本指定下载的染色体号

for i in $(seq 1 22) X Y M;do echo $i;wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;donegunzip *.gzfor i in $(seq 1 22) X Y M;do cat chr${i}.fa >> hg19.fasta;donerm -fr chr*.fasta

编辑校对:思考问题的熊

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏北京马哥教育

CentOS 7下安装Logstash ELK Stack 日志管理系统(上)

介绍 ? The Elastic Stack - 它不是一个软件,而是Elasticsearch,Logstash,Kibana 开源软件的集合,对外是作为一个...

3736
来自专栏北京马哥教育

两大Linux发行版迎来大幅更新 Debian 9及Fedora 26 Beta终于发布

Debian 9终于发布 Debian 发行版宣布正式释出代号为 Stretch 的 Debian 9,该版本将提供五年的支持。Stretch 将专门献给于 2...

3134
来自专栏阿杜的世界

Spring Boot with Redis

Spring Boot是为了简化Spring开发而生,从Spring 3.x开始,Spring社区的发展方向就是弱化xml配置文件而加大注解的戏份。最近召开的S...

842
来自专栏云计算与大数据

How to Monitor Zookeeper

As per previous articles, our general rule of thumb is “collect all possible/rea...

1484
来自专栏生信技能树

小鼠全基因组数据分析

We performed WGS on a CRISPR–Cas9-edited mouse to identify all off-target mutati...

2202
来自专栏轻扬小栈

debian vps 安装 shadowsocks(ss-server) 以及自动启动

9131
来自专栏微信音视频小程序

教你1天搭建自己的“微视”

A simple iOS Application project is shown below to illustrate how to configure S...

9205
来自专栏乐沙弥的世界

X86 DBCA, NETCA GIVE JAVA HOTSPOT ERROR IF ON X86_64 HARDWARE

    在使用DBCA命令创建新的数据库时,DBCA命令无法启动。运行的环境是宿主机64bit+AMD cpu, 而客户机为Linux 32bit + Grid...

852
来自专栏大魏分享(微信公众号:david-share)

怎样一个金箍圈(Pipeline),让至尊宝(Openshift)完成了到孙悟空(DevOps)的蜕变

但说出这句话,和实现Devops全工具链落地之间的差距,与造出原子弹和E=MC2公式的差距,实不逞多让。

3663
来自专栏技术小黑屋

How to Create Facebook Key Hash

When I create a new application on Facebook, I meet the problem. Facebook asks m...

943

扫码关注云+社区