前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >保姆级参考基因组及其注释下载教程(图文详解)

保姆级参考基因组及其注释下载教程(图文详解)

作者头像
生信菜鸟团
发布2021-07-05 19:08:11
8.1K0
发布2021-07-05 19:08:11
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

目录

一、什么是参考基因组和基因组注释?

二、参考基因组版本命名

1、常用人参考基因组对应表

2、常用小鼠参考基因组对应表

三、下载

1、NCBI

2、Ensemble

3、GENCODE

4、UCSC

5、iGenomes

四、其他参考基因组信息

什么是参考基因组和基因组注释?

先来理一理参考基因组,基因组注释文件间的关系。

自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因组序列信息,并写在 Fasta 格式的文本文件“天书”中,这本天书就叫做参考基因组

但是,直接拿天书来看是一脸懵逼的,于是大家开始利用实验技术手段开始着手解密这本天书,随后大量的基因以及非编码序列被人们详细的标记在参考基因组对应的位置。同时对该位置加入大量的注释细节,最终将这些信息写在 BED,GTF,GFF 格式的基因组注释文件 。所以也可以把基因组注释文件理解为字典,看不懂天书,翻翻字典就懂了。

随着时间的推移,在更先进技术的加持下,在已经构建好的基因组和注释信息上不断增加,删减,修改,就有了不同的版本。而每一个版本的参考基因组都会对应有一个基因组注释文件(天书和字典一一对应),接下来我们看看参考基因组版本是怎么指定的。

参考基因组版本命名

在讲参考基因组之前,需要提到一个组织参考基因组联盟(Genome Reference Consortium),它是由 NCBI,EBI,桑格研究所等机构组成。GRC 利用最佳的技术装配,纠正,增加基因组序列,以此作为在生信分析领域作为参考的基因组。目前,该机构构建了人,小鼠,大鼠,斑马鱼,鸡的参考基因组。

人基因组官名叫 GRCh38 (Genome Reference Consortium Human Build 38),GRCh38 在UCSC基因组浏览器中还有个小名 hg38,这个小名对于大多数人来说是更亲切熟悉的。GRCh38 在 GenBank 中叫 GCA_000001405.15,在 RefSeq 中叫 GCF_000001405.26,虽然 GRC 组织建议在所有出版物和工具中使用该编号,但事实是前两种 GRCh38 和 hg38 对生信分析更常见。

在不更改染色体坐标的情况下,向参考基因组添加或替换新序列,这种打补丁的方式,会在基因组版本后加 .p (patch)来命名。

这就像在王者荣耀,英雄联盟中,为了维持游戏热度,会大幅修改游戏架构,流程,世界观,图片,叫大版本更新,而定期对某些英雄的面板属性修正,作为补丁。

举个例子,GRCh38 的第九个补丁,正式版本叫做 Genome Reference Consortium Human Build 38 patch release 9,简称 GRCh38.p9。在 GenBank 编号为 GCA_000001405.24,RefSeq 编号为 GCF_000001405.35。在 Ensemble 编号为 GRCh38,NCBI 编号为 GRCh38。

1

常用人参考基因组对应表

发布时间

2013

2009

2006

GRC 官名

GRCh38

GRCh37

GRCh36

UCSC

hg38

hg19

hg18

Ensemble

GRCh38

GRCh37

GRCh36

GENCODE

38

19

3c

NCBI

GRCh38

GRCh37

GRCh36

GenBank

GCA_000001405

RefSeq

GCF_000001405

根据 GRC 官网信息,GRCh39 大版本将会无限停更,他们在考虑用新模型和序列来构建人类的参考基因组,细节不清楚,猜测有可能会使用机器学习,泛基因组等技术来构建。

2

常用小鼠参考基因组对应表

发布时间

2020

2011

2007

GRC 官名

GRCm39

GRCm38

UCSC

m39

mm10

mm9

Ensemble

GRCm39

GRCm38

GENCODE

M27

M25

M1

NCBI

GRCm39

GRCm38

NCBIM37

下载

1

NCBI

这里提供两种下载方式,一种为网页界面下载,另一种为FTP下载。

可视化下载
  • 进入网址

https://www.ncbi.nlm.nih.gov/genome/browse#!/overview/

  • 搜索物种
  • 下载界面

FTP下载

随便提一下,Chrome 浏览器在18版本后由于安全原因已经不支持 ftp 协议,改用 https 协议,可以看到链接已经与之前的不同。

这里以下载人的参考基因组 GRCh38 为例:

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/reference/GCF_000001405.39_GRCh38.p13

人类基因组注释文件:

GTF 格式:https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gtf.gz

GFF 格式:

https://ftp.ncbi.nlm.nih.gov/genomes/refseq/vertebrate_mammalian/Homo_sapiens/annotation_releases/109/GCF_000001405.38_GRCh38.p12/GCF_000001405.38_GRCh38.p12_genomic.gff.gz

如果以这种方式下载,其实已经可以路径中大概看出相关物种的下载地址,可以自行查询及下载其他物种。

2

Ensemble

可视化下载
  • 网址:http://asia.ensembl.org
  • 点击物种名,进入下载界面
  • 点击对应名称,下载参考基因组和基因组注释文件
FTP下载

同样以下载人参考基因组 GRCh38 为例:

http://ftp.ensembl.org/pub/current_fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz

GTF 文件:http://ftp.ensembl.org/pub/current_gtf/homo_sapiens/Homo_sapiens.GRCh38.104.gtf.gz

GTT 文件:http://ftp.ensembl.org/pub/current_gff3/homo_sapiens/Homo_sapiens.GRCh38.104.gff3.gz

3

GENCODE

如果小伙伴研究的物种只涉及人类和小鼠,极力推荐 GENCOE,这里有着相较其他数据库,最新最全的基因组和其注释信息。

  • 网址:https://www.gencodegenes.org/
  • 点击人类的最新版
  • 点击下载基因组注释文件
  • 点击下载参考基因组文件

4

UCSC

相对其他下载方式,UCSC 本职的工作是做基因组浏览器的,因此也可以从下图看到,在这里可以根据自己定义来下载相对于的基因组区域,比如 prime,exon,gene,transcript等等。

  • 网址:http://genome.ucsc.edu/cgi-bin/hgTables
  • 下载:设置参数如下,然后点击下载参考基因组及注释文件

5

iGenomes

iGenomes是常见分析生物的参考序列和注释文件的集合。这些文件已从Ensembl,NCBI或UCSC下载。染色体名称已更改为简单且与下载源一致。每个iGenome都可以作为压缩文件使用,其中包含生物体的单个基因组构建的序列和注释文件。

网址:https://support.illumina.com/sequencing/sequencing_software/igenome.html

由亚马逊资助的生物信息参考基因组下载站点,有各种参考基因组,注释文件,软件索引等常用文件,并且有着极快的下载速度,但是缺点是只有常用的物种。

站点:https://ewels.github.io/AWS-iGenomes/

物种参考基因组版本对应信息

https://zhenglei.blog.csdn.net/article/details/117486244


参考:

https://www.ncbi.nlm.nih.gov/grc

http://genomeref.blogspot.com/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-06-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 可视化下载
  • 可视化下载
  • FTP下载
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档