学习
实践
活动
专区
工具
TVP
写文章
专栏首页生信修炼手册GTF文件格式简介

GTF文件格式简介

欢迎关注”生信修炼手册”!

GTF是在GFF的基础上发展而来,二者有很多类似的地方,都是\t分隔的9列文件,内容也比较接近。GFF能够包含的信息更多更全,可以包含染色体,基因,转录本的信息,而GTF主要用来描述基因和转录本的信息。

GTF全称Gene transfer format, 每列的含义如下

1. column1

第一列是seqid, 代表序列ID, 通常是染色体的ID, 每条染色体拥有一个唯一的ID。

2. column2

第二列是source, 代表基因结构的来源,可以是数据库的名称,比如来自RefSeq数据库,也可以是软件的名称,比如用GeneScan软件预测得到,当然,也可以为空,用.点号填充。

3. column3

第三列是feature, 代表区间对应的特征类型, 在GTF中,常见的类型如下

  • 5UTR
  • 3UTR
  • exon
  • CDS
  • start_codon
  • stop_codon

4. column4

第四列是start, 代表区间的起始位置

5. column5

第四列是end, 代表区间的终止位置

6. column6

第六列是score, 软件提供了统计值,如果没有,就用.填充

7. column7

第七列是strand, 代表正负链的信息, +表示正链,-表示负链,?表示不清楚正负链的信息,当正负链信息没有意义时,可以用.填充

8. column8

第八列是phase,当描述的是CDS区间信息时,需要指定翻译时开始的位置,取值范围有0,1,2两种

9. column9

第九列是attributes, 表示属性,每种属性写法为key value, 注意和gff中key=value有所区别,而且必须有gene_idtranscript_id这两个属性, 多个属性用分号分隔

下面看下Ensembl 数据库中的human的GTF文件,链接如下

ftp://ftp.ensembl.org/pub/release-93/gtf/homo_sapiens/Homo_sapiens.GRCh38.93.gtf.gz

在头部有#开头的注释行

#!genome-build GRCh38.p12
#!genome-version GRCh38
#!genome-date 2013-12
#!genome-build-accession NCBI:GCA_000001405.27
#!genebuild-last-updated 2018-01

在正文中,基因示例如下

1       ensembl_havana  gene    65419   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding";

对于基因,提供了如下属性

  1. gene_id
  2. gene_version
  3. gene_name
  4. gene_source
  5. gene_biotype

Ensembl数据库中的基因ID以ENSG作为前缀,gene_version指的是基因ID的版本号,用于区分不同版本,一个完整的ID为ENSG编号加上版本号,之间用.点号分隔,比如ENSG00000186092.6。gene_name指的是基因的symbol, 和NCBI数据库中的gene_symbol一致;gene_source代表来源,来自ensembl_havana, gene_biotype代表基因类型,protein_coding表示蛋白编码基因。

转录本示例如下

1       havana  transcript      65419   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

对于转录本,在基因的基础上,增加了如下属性

  1. transcript_id
  2. transcript_version
  3. transcript_name
  4. transcript_source
  5. transcript_biotype

各个属性的含义也比较直观,和基因的类似。

exon示例如下

1       havana  exon    65419   65433   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "1"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; exon_id "ENSE00003812156"; exon_version "1"; tag "basic";

对于exon,新增了如下属性 1. exon_number 2. exon_id 3. exon_version

对于non-coding的转录本而言,transcriptexon两种信息就可以准确描述该转录本的结构了;对于编码蛋白质的转录本,还需要以下几种信息

5UTR示例如下

1       havana  five_prime_utr  65520   65564   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST000006415
15"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcr
ipt_source "havana"; transcript_biotype "protein_coding"; tag "basic";

CDS示例如下

1       havana  CDS     65565   65573   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; protein_id "ENSP00000493376"; protein_version "2"; tag "basic";

start_codon示例如下

1       havana  start_codon     65565   65567   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

stop_codon示例如下

1       havana  stop_codon      70006   70008   .       +       0       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST00000641515"; transcript_version "2"; exon_number "3"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcript_source "havana"; transcript_biotype "protein_coding"; tag "basic";

3UTR示例如下

1       havana  three_prime_utr 70009   71585   .       +       .       gene_id "ENSG00000186092"; gene_version "6"; transcript_id "ENST000006415
15"; transcript_version "2"; gene_name "OR4F5"; gene_source "ensembl_havana"; gene_biotype "protein_coding"; transcript_name "OR4F5-202"; transcr
ipt_source "havana"; transcript_biotype "protein_coding"; tag "basic";

通过这几种信息,可以准确描述一个编码蛋白的转录本的结构。

·end·

—如果喜欢,快分享给你的朋友们吧—

文章分享自微信公众号:
生信修炼手册

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

作者:lzyg
原始发表时间:2018-09-10
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • USD文件格式简介

    每一个三维软件都以不同的方式储存例如模型,材质,动画,灯光,特效,渲染参数等信息数据。这些软件有自己的方式和工作流来管理这些数据,但各个软件之间的数据基本是无法...

    littleyan
  • ELF文件格式简介

      可执行与可链接格式 (Executable and Linkable Format,ELF),常被称为 ELF格式,是一种用于可执行文件、目标代码、共享库和...

    全栈程序员站长
  • GFF文件格式简介

    组装得到基因组的序列只是开展基因组研究的第一步,基因的结构是基因组后续功能研究的基石。在NCBI中,除了提供基因组序列外,还提供了基因结构的信息,采用的就是GF...

    生信修炼手册
  • Newick: tree文件格式简介

    Newick 是最常见的进化树文件格式,了解这种格式之前,有必要先掌握树状结构的构成。首先来看一个tree的示例

    生信修炼手册
  • SAM/BAM文件格式简介(一)

    将reads比对到参考基因组上,我们称之为mapping。mapping的工具很多,为了方便下游分析,对于mapping产生的文件,业界有一个统一的标准,这个标...

    生信修炼手册
  • SAM/BAM文件格式简介(二)

    本文重点介绍下SAM文件中比对部分的含义,比对部分的信息是\t分隔的11列文件,每列的含义如下

    生信修炼手册
  • 点云存储文件格式简介

    在众多存储点云的文件格式中,有些格式是为点云数据“量身打造”的,也有一些文件格式(如计算机图形学和计算机和学领域的3D模型或通讯数据文件)具备表示...

    点云PCL博主
  • 基于 Hive 的文件格式:RCFile 简介及其应用

    Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文...

    用户1177713
  • 使用refGenome加上dplyr玩转gtf文件

    当然,这个gtf是有非常多的值得探索的地方,比如可以完成http://www.biotrainee.com/thread-626-1-1.html 我在生信技能...

    生信技能树
  • 使用Tbtools根据gtf文件统计基因密度

    也可以先把自己的gtf文件里的顺序更改一下,使用到的工具是 Tbtools里的 GXF Fix

    用户7010445
  • stl文件格式特点_常见文件格式

    STL文件格式(stereolithography,光固化立体造型术的缩写)是由3D SYSTEMS 公司于1988 年制定的一个接口协议,是一种为快速原型制造...

    全栈程序员站长
  • 视频 | 学习Linux进行GTF解析

    5.2 如何获取目标基因的转录因子(上)——biomart下载基因和motif位置信息

    生信宝典
  • 详解GFF转换为GTF文件

    存储基因和转录本的结构信息,gtf和gff3两种格式都可以。在实际分析时,会需要转换两种格式。比如,NCBI 只提供了GFF格式的下载文件,我们需要转换成GTF...

    生信修炼手册
  • gff文件转换成gtf文件

    做测序数据分析的时候经常需要将gff格式的注释文件转换成gtf格式的文件。今天小编就给大家介绍一个工具,gffread来实现这个目的。注意这个工具需要在linu...

    生信交流平台
  • tga文件格式(波形声音文件格式)

    Tga常见的格式有非压缩RGB和压缩RGB两种格式,文件的第三个Byte位作为标记:2为非压缩RGB格式,10为压缩RGB格式。这里的类只实现读取非压缩格式的t...

    全栈程序员站长
  • 用GenePred注释文件进行数据分析

    编者注:前几天在生信技能树我们发现了一个神奇的帖子(http://www.biotrainee.com/thread-928-1-1.html ), 作者用一种...

    生信技能树
  • ELF文件格式

    1999年86open项目选择ELF作为x86处理器上Unix和类Unix系统的标准二进制文件格式。使用ELF的原因包括:灵活性、可扩展性、对不同字节序格式支持...

    mingjie
  • YUV文件格式[通俗易懂]

    转:https://blog.csdn.net/armwind/article/details/52190123,文章不错特转载过来备忘

    全栈程序员站长
  • JPEG文件格式_显示文件格式后缀

    JPEG文件的存储格式有很多种,但最常用的是JFIF格式,即JPEG File Interchange Format。JPEG文件大体可以分为两个部分:

    全栈程序员站长

扫码关注腾讯云开发者

领取腾讯云代金券