不可不知的基因组版本对应关系

不同版本对应关系

hg19,GRCH37和Ensembl75是三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC和ENSEMBL各自发布的基因组信息。

hg系列,hg18/19/38来自UCSC,也是目前使用频率最高的基因组。从出道至今我就只看过hg19了,但是建议大家都转为hg38,因为它是目前的最新版本。

基因组各种版本对应关系综合来看如下所示:

  • GRCh36 (hg18): ENSEMBL release_52.
  • GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
  • GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

ENSEMBL的版本特别复杂也很容易搞混,UCSC的版本就简单很多,常用的是hg19,最新版本为hg38。

看起来NCBI也是很简单,就GRCh36,37,38,但是里面水也很深!

Feb 13 2014 00:00    Directory April_14_2003Apr 06 2006 00:00    Directory BUILD.33Apr 06 2006 00:00    Directory BUILD.34.1Apr 06 2006 00:00    Directory BUILD.34.2Apr 06 2006 00:00    Directory BUILD.34.3Apr 06 2006 00:00    Directory BUILD.35.1Aug 03 2009 00:00    Directory BUILD.36.1Aug 03 2009 00:00    Directory BUILD.36.2Sep 04 2012 00:00    Directory BUILD.36.3Jun 30 2011 00:00    Directory BUILD.37.1Sep 07 2011 00:00    Directory BUILD.37.2Dec 12 2012 00:00    Directory BUILD.37.3

从上面可以看到,有37.1, 37.2和 37.3 等等,不过这种版本一般指的是注释在更新而基因组序列一般不变。

总之你需要记住, hg19基因组大小是3G,压缩后八九百兆

如果要下载GTF注释文件,基因组版本尤为重要。

GTF注释文件下载

NCBI:最新版(hg38)

  • ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/

NCBI:其它版本

  • ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/

Ensembl

  • ftp://ftp.ensembl.org/pub/release-75/gtf/homosapiens/Homosapiens.GRCh37.75.gtf.gz

变化上面链接中的release就可以拿到所有版本信息

  • ftp://ftp.ensembl.org/pub/

UCSC

本身需要一系列参数:

1. Navigate to http://genome.ucsc.edu/cgi-bin/hgTables2. Select the following options:clade: Mammalgenome: Humanassembly: Feb. 2009 (GRCh37/hg19)group: Genes and Gene Predictionstrack: UCSC Genestable: knownGeneregion: Select "genome" for the entire genome.output format: GTF - gene transfer formatoutput file: enter a file name to save your results to a file, or leave blank to display results in the browser3. Click 'get output'.

搞清楚版本关系后就可以进行下载了。

UCSC基因组下载

UCSC里面下载非常方便,只需要根据基因组简称来拼接url:

http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz

或者用shell脚本指定下载的染色体号

for i in $(seq 1 22) X Y M;do echo $i;wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;donegunzip *.gzfor i in $(seq 1 22) X Y M;do cat chr${i}.fa >> hg19.fasta;donerm -fr chr*.fasta

编辑校对:思考问题的熊

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏北京马哥教育

使用Heapster和Splunk监控Kubernetes运行性能

作者:naughty Kubernetes已经成为容器编排的事实上的王者,连Docker都已经向K8s女王大人低头。对于Kubernetes的cluster的...

3316
来自专栏落影的专栏

iOS开发笔记(四)

前言 最近遇到一个苦恼的问题,寻找了漫长的时间才解决。 起因是项目需要fork一个新的分支到新的git,于是把代码复制到新的git,创建git库,然后推送,一...

3477
来自专栏LinXunFeng的专栏

iOS - SceneKit显示与交互3D建模(二)

1335
来自专栏恰同学骚年

自己动手写工具:百度图片批量下载器

开篇:在某些场景下,我们想要对百度图片搜出来的东东进行保存,但是一个一个得下载保存不仅耗时而且费劲,有木有一种方法能够简化我们的工作量呢,让我们在离线模式下也能...

1211
来自专栏青玉伏案

iOS开发之地图与定位

  无论是QQ还是微信的移动客户端都少不了定位功能,之前在微信demo中没有添加定位功能,今天就写个定位的小demo来了解一下定位和地图的东西。地图和定位看上去...

2066
来自专栏云计算教程系列

如何使用tmux终端多路复用器

TMUX是终端多路复用器。类似GNU Screen,但来自于OpenBSD,采用BSD授权。使用它最直观的好处就是,通过一个终端登录远程主机并运行tmux后,在...

973
来自专栏生信技能树

给学徒的ATAC-seq数据实战

查看文章发现数据上传到了GEO,是:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE66581

2054
来自专栏施炯的IoT开发专栏

Windows 10 IoT Serials 1 - 针对Minnow Board MAX的Windows 10 IoT开发环境搭建

目前,微软针对Windows IoT计划支持的硬件包括树莓派2,Minnow Board MAX 和Galileo (Gen 1和Gen 2)。其中,Galil...

1756
来自专栏移动开发之家

Weex原理之带你去蹲坑

 本篇将节操满满的安利Weex(˶‾᷄ ⁻̫ ‾᷅˵),不一样的角度推荐你入坑,官网有的我们不拖泥,这里将给你补充官方没有的,深入到蹲坑给你排忧解难,总会给你点...

1403
来自专栏武军超python专栏

2018年8月15日UDP编程和面向对象的TCP编程

TCP协议:(Transmission Control Protocol 传输控制协议)是一种面向连接的、可靠的、基于字节流的传输层通信协议 UDP协议:(U...

795

扫码关注云+社区