前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从UCSC下载基因组的GTF文件

从UCSC下载基因组的GTF文件

作者头像
生信修炼手册
发布2020-05-08 16:40:51
5.9K0
发布2020-05-08 16:40:51
举报
文章被收录于专栏:生信修炼手册

欢迎关注”生信修炼手册”!

从UCSC下载基因组的GTF文件有两种方式,一种是利用table browser 浏览器,另外一种是通过FTP服务。

1. Table Browser

Table Browser提供了一个检索和下载的入口,支持多种格式的下载,下载gtf文件只是其中一个功能,网址如下

http://genome.ucsc.edu/cgi-bin/hgTables

第一行的3个标签用于确定确定物种和版本。clade提供了物种分类,包括以下类型

  1. Mammal 哺乳动物
  2. Vertebrate 脊椎动物
  3. Deuterostome 后口动物
  4. Insect 昆虫
  5. Nematode 线虫
  6. Viruses 病毒
  7. other 其他

从这里的类别也可以发现,UCSC主要提供了动物的基因组,如果想要下载植物基因组的相关文件,只能考虑NCBI,Ensembl了。根据clade的类别,可以快速查找物种。genome选择对应的物种名字,assembly选择基因组版本。

group用于选择文件保存信息的类型,提供了以下类型

  1. Mapping and Sequencing
  2. Genes and Gene Predictions
  3. Phenotype and Literature
  4. mRNA and EST
  5. Expression
  6. Regulation
  7. Comparative Genomics
  8. Variation
  9. Repeats
  10. All Tracks
  11. All Tables

GTF文件保存的是基因和转录本的结构信息,所以选择2,track选择对应的数据库和版本,通常选择NCBI RefSeq

table选择数据,对于NCBI RefSeq, 提供了如下选择

  1. RefSeq All
  2. RefSeq Curated
  3. RefSeq Predicted
  4. UCSC RefSeq

RefSeq All代表RefSeq中所有的转录本信息,RefSeq Curated代表核对过的数据,可信度较高,以NM, NR, YP开头,RefSeq Predicted代表预测的数据,以XM, XR开头;UCSC RefSeq 代表所有以NM, NR开头的转录本信息。通常选择UCSC RefSeq即可。

region选择下载的区域,是选择整个基因组,还是只是染色体上的部分区域。 output format选择输出文件格式,常用的有以下两种

  1. GTF(limited)
  2. BED

output file指定输出文件的名字,如果不指定,默认会显示在浏览器中共,如果下载整个基因组的信息,建议填写输出文件的名字,file type returned选择返回文件的格式,支持返回压缩文件。

通过简单的勾选,就可以下载到GTF文件了。但是这种方式下载的GTF文件是有限制的,只包含了转录本ID, 示例如下

代码语言:javascript
复制
chr1 hg38_refGene exon 11106531 11107500 0.000000 - . gene_id "NM_004958"; transcript_id "NM_004958";

转录本对应的基因名称时非常重要的信息,如果要解决这个问题,可以通过FTP服务器进行下载。

2. FTP

UCSC的FTP服务提供了物种的注释文件供下载,hg38的FTP地址如下

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

但是FTP中并没有直接提供bed12, gtf 格式的文件,因为这些格式存在冗余信息,文件大小会比较大。为例节省磁盘空间,UCSC提出来genePred这种格式。这种格式每一行代表一个转录本信息,冗余信息较少。更多的介绍可以参考官方文档 https://genome.ucsc.edu/FAQ/FAQformat.html#format9

UCSC RefSeq这种信息对应的文件为refGene.txt.gz, 对于该文件,需要借助UCSC官方提供的格式转换工具转换为gtf格式。UCSC提供了许多的工具,下载链接如下

http://hgdownload.soe.ucsc.edu/admin/exe/

其中genePredToGtf就是把genepred格式转换为gtf格式的工具。使用方式如下

代码语言:javascript
复制
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz
gunzip refGene.txt.gz
cut -f 2- refGene.txt | genePredToGtf file stdin -source=hg38_Ref  hg38.gtf

refGene.txt的第一列信息是多余的,删除之后,整个文件就是genePred格式了。最终生成的文件如下

代码语言:javascript
复制
chr20   hg19_Ref        exon    63865228        63865384        .       +       .       gene_id "TPD52L2"; transcript_id "NM_003288"; exon_number "1"; exon_id "NM_003288.1"; gene_name "TPD52L2";

可以看到,gene_id的信息是有了。但是还是有点不足之处,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,无法确定基因类型。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-09-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Table Browser
  • 2. FTP
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档