(15)基因组各种版本对应关系-生信菜鸟团博客2周年精选文章集

这是我的成名作:

首先是NCBI对应UCSC,对应ENSEMBL数据库:

GRCh36 (hg18): ENSEMBL release_52. GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75. GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

可以看到ENSEMBL的版本特别复杂!!!很容易搞混!

但是UCSC的版本就简单了,就hg18,19,38, 常用的是hg19,但是我推荐大家都转为hg38

看起来NCBI也是很简单,就GRCh36,37,38,但是里面水也很深!

Feb 13 2014 00:00    Directory April_14_2003Apr 06 2006 00:00    Directory BUILD.33Apr 06 2006 00:00    Directory BUILD.34.1Apr 06 2006 00:00    Directory BUILD.34.2Apr 06 2006 00:00    Directory BUILD.34.3Apr 06 2006 00:00    Directory BUILD.35.1Aug 03 2009 00:00    Directory BUILD.36.1Aug 03 2009 00:00    Directory BUILD.36.2Sep 04 2012 00:00    Directory BUILD.36.3Jun 30 2011 00:00    Directory BUILD.37.1Sep 07 2011 00:00    Directory BUILD.37.2Dec 12 2012 00:00    Directory BUILD.37.3

可以看到,有37.1, 37.2, 37.3 等等,不过这种版本一般指的是注释在更新,基因组序列一般不会更新!!!

反正你记住hg19基因组大小是3G,压缩后八九百兆即可!!!

如果要下载GTF注释文件,基因组版本尤为重要!!!

对NCBI:ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/ ##最新版(hg38)

ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ ## 其它版本

对于ensembl:

ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz

变幻中间的release就可以拿到所有版本信息:ftp://ftp.ensembl.org/pub/

对于UCSC,那就有点麻烦了:

需要选择一系列参数:

http://genome.ucsc.edu/cgi-bin/hgTables

1. Navigate to http://genome.ucsc.edu/cgi-bin/hgTables 2. Select the following options: clade: Mammal genome: Human assembly: Feb. 2009 (GRCh37/hg19) group: Genes and Gene Predictions track: UCSC Genes table: knownGene region: Select “genome” for the entire genome. output format: GTF – gene transfer format output file: enter a file name to save your results to a file, or leave blank to display results in the browser 3. Click ‘get output’.

现在重点来了,搞清楚版本关系了,就要下载呀!

UCSC里面下载非常方便,只需要根据基因组简称来拼接url即可:

http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz

或者用shell脚本指定下载的染色体号:

for i in $(seq 1 22) X Y M; do echo $i; wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz; ## 这里也可以用NCBI的:ftp://ftp.ncbi.nih.gov/genomes/M_musculus/ARCHIVE/MGSCv3_Release3/Assembled_Chromosomes/chr前缀 done gunzip *.gz for i in $(seq 1 22) X Y M; do cat chr${i}.fa >> hg19.fasta; done rm -fr chr*.fasta

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-01-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据库

在.NET Core类库中使用EF Core迁移数据库到SQL Server

前言 如果大家刚使用EntityFramework Core作为ORM框架的话,想必都会遇到数据库迁移的一些问题。 起初我是在ASP.NET Core的Web项...

1966
来自专栏数据库新发现

Use Orastress! to test your database

http://www.eygle.com/special/Use.Orastress.2.Test.Oracle.db.htm

622
来自专栏开源优测

Selenium Webdriver Desired Capabilities

前言 我们每一个的selenium测试都应该在指定的环境下运行,这个环境可以是web浏览器、移动设备、移动模拟器等等。 那怎么来指定我们的selenium测试脚...

2698
来自专栏AI-vell

java轻量RESTful api服务搭建(jersey+jetty)

由于开始要搭建一个java + python的服务,java端提供数据库增删改查逻辑供python端调用,第一时间想到了用REST(Representation...

2497
来自专栏恰同学骚年

.NET Core微服务之基于IdentityServer建立授权与验证服务(续)

上一篇我们基于IdentityServer4建立了一个AuthorizationServer,并且继承了QuickStartUI,能够成功获取Token了。这一...

924
来自专栏Laoqi's Linux运维专列

OpenVPN异地机房互连以及负载均衡高可用解决方案

2026
来自专栏bboysoul

记载一次删除mysql的默认数据库mysql的过程

今天终于尝到了什么叫删库跑路,妈的真的悲剧,早上想在树莓派里安装个wordpress,想放点街舞视频给大家分享一下,突然发现数据库里面还有一个以前的论坛数据库,...

563
来自专栏Laoqi's Linux运维专列

LNMP自动添加vhost脚本(功能蛮强大的)

1215
来自专栏我叫刘半仙

原分布式系统架构实战demo:SSM+Dubbo

        对于传统的单一构架,也就是打成的war或者ear包部署在同一个Web容器里的构架,它虽然开发、测试、部署简单,但随着业务的不断发展,维护成本增加...

6727
来自专栏linux系统运维

配置防盗链,访问控制Directory,访问控制FilesMatch

1736

扫描关注云+社区