不可不知的基因组版本对应关系

不同版本对应关系

hg19,GRCH37和Ensembl75是三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC和ENSEMBL各自发布的基因组信息。

hg系列,hg18/19/38来自UCSC,也是目前使用频率最高的基因组。从出道至今我就只看过hg19了,但是建议大家都转为hg38,因为它是目前的最新版本。

基因组各种版本对应关系综合来看如下所示:

  • GRCh36 (hg18): ENSEMBL release_52.
  • GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
  • GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

ENSEMBL的版本特别复杂也很容易搞混,UCSC的版本就简单很多,常用的是hg19,最新版本为hg38。

看起来NCBI也是很简单,就GRCh36,37,38,但是里面水也很深!

Feb 13 2014 00:00    Directory April_14_2003Apr 06 2006 00:00    Directory BUILD.33Apr 06 2006 00:00    Directory BUILD.34.1Apr 06 2006 00:00    Directory BUILD.34.2Apr 06 2006 00:00    Directory BUILD.34.3Apr 06 2006 00:00    Directory BUILD.35.1Aug 03 2009 00:00    Directory BUILD.36.1Aug 03 2009 00:00    Directory BUILD.36.2Sep 04 2012 00:00    Directory BUILD.36.3Jun 30 2011 00:00    Directory BUILD.37.1Sep 07 2011 00:00    Directory BUILD.37.2Dec 12 2012 00:00    Directory BUILD.37.3

从上面可以看到,有37.1, 37.2和 37.3 等等,不过这种版本一般指的是注释在更新而基因组序列一般不变。

总之你需要记住, hg19基因组大小是3G,压缩后八九百兆

如果要下载GTF注释文件,基因组版本尤为重要。

GTF注释文件下载

NCBI:最新版(hg38)

  • ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/

NCBI:其它版本

  • ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/

Ensembl

  • ftp://ftp.ensembl.org/pub/release-75/gtf/homosapiens/Homosapiens.GRCh37.75.gtf.gz

变化上面链接中的release就可以拿到所有版本信息

  • ftp://ftp.ensembl.org/pub/

UCSC

本身需要一系列参数:

1. Navigate to http://genome.ucsc.edu/cgi-bin/hgTables2. Select the following options:clade: Mammalgenome: Humanassembly: Feb. 2009 (GRCh37/hg19)group: Genes and Gene Predictionstrack: UCSC Genestable: knownGeneregion: Select "genome" for the entire genome.output format: GTF - gene transfer formatoutput file: enter a file name to save your results to a file, or leave blank to display results in the browser3. Click 'get output'.

搞清楚版本关系后就可以进行下载了。

UCSC基因组下载

UCSC里面下载非常方便,只需要根据基因组简称来拼接url:

http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gzhttp://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz

或者用shell脚本指定下载的染色体号

for i in $(seq 1 22) X Y M;do echo $i;wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz;donegunzip *.gzfor i in $(seq 1 22) X Y M;do cat chr${i}.fa >> hg19.fasta;donerm -fr chr*.fasta

编辑校对:思考问题的熊

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-05-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

使用SCCM和Viewfinity进行提权实验

如今越来越多的公司开始限制用户以本地管理员的身份来运行软件,随之带来的问题是,如何允许用户执行某些管理行为,例如安装已批准的软件。市场上有一些工具旨在解决这个问...

920
来自专栏张戈的专栏

WordPress评论滑动/拉链解锁myQaptcha修改为自动提交的方法

自从肉牛、钢材等垃圾评论泛滥,很多朋友都用上了各种评论验证方案,其中一个比较惹眼的就是张戈博客目前在用的 myQaptcha 滑动解锁。 ? 很久之前张戈博客已...

3245
来自专栏北京马哥教育

利用anaconda搞定所有Python安装问题

很多人按照我之前的Python安装教程可以成功,但是方法之下必定有BUG,所以还有一部分人(电脑)无法配置成功,有没有一个软件可以自带一系列常用的安装包!!! ...

5946
来自专栏along的开发之旅

Windows下Git和GitExtension配置

先提下写这篇博客遇到的坑,截图千万不要存为bmp格式,要存为png或其他.大小相差特别大,bmp格式1.3mb,png才80kb.加载速度快了不是一点点.

461
来自专栏java架构师

storm基础系列之五---------接入数据收集系统flume

1.基本结构介绍   flume是三层架构,agent,collector,storage。每一层都可水平扩展。   其中,agent就是数据采集方;colle...

2679
来自专栏大魏分享(微信公众号:david-share)

用Ansible自动供应vmware虚拟机--构建数据中心一体化运维平台第二篇

1.1 简述 一直以来,打开邮箱被ticket糊一脸的事情时有发生。我一直在想,能不能以一种简单的方案(不花老板的钱)来供应(provisioning)虚拟机呢...

4192
来自专栏顶级程序员

高效 MacBook 工作环境配置

工欲善其事,必先利其器,工具永远都是用来解决问题的,没必要为了工具而工具,一切工具都是为了能快速准确的完成工作和学习任务而服务。 本文记录 MacBook 整...

4887
来自专栏草根博客站长有话说

WordPress 恶意代码的分析和排查方法

自【网站安全的「灯下黑」隐患:账号安全】一文发表后,明月收到了很多站长们有关 WordPress 站点安全的问题咨询,明月总结分析了一下几乎 90%以上都是“恶...

615
来自专栏SDNLAB

如何向OpenDaylight社区贡献代码

本文由两部分构成,第一部分简要介绍了Gerrit的工作原理以工作流程,第二部分结合自己成功提交代码的例子,向大家展示向OpenDaylight提交源码的过程。向...

3099
来自专栏walterlv - 吕毅的博客

Windows 10 四月更新,文件夹名称也能区分大小写了

发布于 2018-06-14 00:02 更新于 2018-09...

342

扫描关注云+社区