前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >GTF文件格式简介

GTF文件格式简介

作者头像
生信修炼手册
发布2020-05-08 16:40:29
6.1K0
发布2020-05-08 16:40:29
举报

欢迎关注”生信修炼手册”!

GTF是在GFF的基础上发展而来,二者有很多类似的地方,都是\t分隔的9列文件,内容也比较接近。GFF能够包含的信息更多更全,可以包含染色体,基因,转录本的信息,而GTF主要用来描述基因和转录本的信息。

GTF全称Gene transfer format, 每列的含义如下

1. column1

第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。

2. column2

第二列是source, 代表基因结构的来源,可以是数据库的名称,比如来自RefSeq数据库,也可以是软件的名称,比如用GeneScan软件预测得到,当然,也可以为空,用.点号填充。

3. column3

第三列是feature, 代表区间对应的特征类型, 在GTF中,常见的类型如下

  • 5UTR
  • 3UTR
  • exon
  • CDS
  • start_codon
  • stop_codon
4. column4

第四列是start, 代表区间的起始位置

5. column5

第四列是end, 代表区间的终止位置

6. column6

第六列是score, 软件提供了统计值,如果没有,就用.填充

7. column7

第七列是strand, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚正负链的信息,当正负链信息没有意义时,可以用.填充

8. column8

第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围有0,1,2两种

9. column9

第九列是attributes, 表示属性,每种属性写法为key value, 注意和gff中key=value有所区别,而且必须有gene_idtranscript_id这两个属性, 多个属性用分号分隔

下面看下Ensembl 数据库中的human的GTF文件,链接如下

ftp://ftp.ensembl.org/pub/release-93/gtf/homo_sapiens/Homo_sapiens.GRCh38.93.gtf.gz

在头部有#开头的注释行

#!genome-build GRCh38.p12
#!genome-version GRCh38
#!genome-date 2013-12
#!genome-build-accession NCBI:GCA_000001405.27
#!genebuild-last-updated 2018-01

在正文中,基因示例如下

1       ensembl_havana  gene    65419   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding";

对于基因,提供了如下属性

  1. gene_id
  2. gene_version
  3. gene_name
  4. gene_source
  5. gene_biotype

Ensembl数据库中的基因ID以ENSG作为前缀,gene_version指的是基因ID的版本号,用于区分不同版本,一个完整的ID为ENSG编号加上版本号,之间用.点号分隔,比如ENSG00000186092.6。gene_name指的是基因的symbol, 和NCBI数据库中的gene_symbol一致;gene_source代表来源,来自ensembl_havana, gene_biotype代表基因类型,protein_coding表示蛋白编码基因。

转录本示例如下

1       havana  transcript      65419   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

对于转录本,在基因的基础上,增加了如下属性

  1. transcript_id
  2. transcript_version
  3. transcript_name
  4. transcript_source
  5. transcript_biotype

各个属性的含义也比较直观,和基因的类似。

exon示例如下

1       havana  exon    65419   65433   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "1"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; exon_id "ENSE00003812156"; exon_version "1"; tag "basic";

对于exon,新增了如下属性 1. exon_number 2. exon_id 3. exon_version

对于non-coding的转录本而言,transcriptexon两种信息就可以准确描述该转录本的结构了;对于编码蛋白质的转录本,还需要以下几种信息

5UTR示例如下

1       havana  five_prime_utr  65520   65564   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST000006415
15"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcr
ipt_source "havana"; transcript_biotype "protein_coding"; tag "basic";

CDS示例如下

1       havana  CDS     65565   65573   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; protein_id "ENSP00000493376"; protein_version "2"; tag "basic";

start_codon示例如下

1       havana  start_codon     65565   65567   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

stop_codon示例如下

1       havana  stop_codon      70006   70008   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "3"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

3UTR示例如下

1       havana  three_prime_utr 70009   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST000006415
15"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcr
ipt_source "havana"; transcript_biotype "protein_coding"; tag "basic";

通过这几种信息,可以准确描述一个编码蛋白的转录本的结构。

·end·

—如果喜欢,快分享给你的朋友们吧—

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信修炼手册 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. column1
  • 2. column2
  • 3. column3
  • 4. column4
  • 5. column5
  • 6. column6
  • 7. column7
  • 8. column8
  • 9. column9
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档