前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >NGS基础 - GTF/GFF文件格式解读和转换

NGS基础 - GTF/GFF文件格式解读和转换

作者头像
生信宝典
发布于 2018-02-05 08:15:26
发布于 2018-02-05 08:15:26
11.8K00
代码可运行
举报
文章被收录于专栏:生信宝典生信宝典
运行总次数:0
代码可运行

GFF 文件

GFF全称为general feature format,这种格式主要是用来注释基因组。

Ensembl 导出的GFF文件示例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
X    Ensembl    Repeat    2419108    2419128    42    .    .    hid=trf; hstart=1; hend=21
X    Ensembl    Repeat    2419108    2419410    2502    -    .    hid=AluSx; hstart=1; hend=303
X    Ensembl    Repeat    2419108    2419128    0    .    .    hid=dust; hstart=2419108; hend=2419128
X    Ensembl    Pred.trans.    2416676    2418760    450.19    -    2    genscan=GENSCAN00000019335
X    Ensembl    Variation    2413425    2413425    .    +    .    
X    Ensembl    Variation    2413805    2413805    .    +    .

GFF文件是以tab键分割的9列组成,以下为每一列的对应信息:

  1. seq_id:序列的编号,一般为chr或者scanfold编号;
  2. source: 注释的来源,一般为数据库或者注释的机构,如果未知,则用点“.”代替
  3. type: 注释信息的类型,比如Gene、cDNA、mRNA、CDS等;
  4. start: 该基因或转录本在参考序列上的起始位置;(从1开始,包含);
  5. end: 该基因或转录本在参考序列上的终止位置;(从1开始,包含);
  6. score: 得分,数字,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,.表示为空;
  7. strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
  8. phase: 仅对注释类型为“CDS”有效,表示起始编码的位置,有效值为0、12. (对于编码蛋白质的CDS来说,本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸,从0开始,CDS的起始位置,除以3,余数就是这个值,,表示到达下一个密码子需要跳过的碱基个数。该编码区第一个密码子的位置,取值0,1,2。0表示该编码框的第一个密码子第一个碱基位于其5’末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外;如果Feature为CDS时,必须指明具体值。);
  9. attributes: 一个包含众多属性的列表,格式为“标签=值”(tag=value),以多个键值对组成的注释信息描述,键与值之间用“=”,不同的键值用“;”隔开,一个键可以有多个值,不同值用“,”分割。注意如果描述中包括tab键以及“,= ;”,要用URL转义规则进行转义,如tab键用 代替。键是区分大小写的,以大写字母开头的键是预先定义好的,在后面可能被其他注释信息所调用。

预先定义的键主要包括: ID:注释信息的编号,在一个GFF文件中必须唯一; name:注释信息的名称,可以重复;Alias:别名;Parent > > Indicates:该注释所属的注释,值为注释信息的编号,比如外显子所属的转录组编号,转录组所属的基因的编号。 Parent指明feature所从属的上一级ID,用于将exons聚集成transcript,将transripts聚集成gene,值可以为多个; Target 指明比对的目标区域,一般用于表明序列的比对结果。格式为 “target_idstart end [strand] ,其中strand是可选的(“+”或”-”),target_id中如果包含空格,则要转换成’ ‘。 Gap:T比对结果的gap信息,和Target一起,用于表明序列的比对结果。Derives_from:Note:备注;Dbxref:数据库索引。

GTF 文件

GTF全称为gene transfer format,主要是用来对基因进行注释。

从 Ensembl 导出的 GTF 文件示例:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
1 transcribed_unprocessed_pseudogene  gene        11869 14409 . + . gene_id "ENSG00000223972"; gene_name "DDX11L1"; gene_source "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; 
1 processed_transcript                transcript  11869 14409 . + . gene_id "ENSG00000223972"; transcript_id "ENST00000456328"; gene_name "DDX11L1"; gene_sourc e "havana"; gene_biotype "transcribed_unprocessed_pseudogene"; transcript_name "DDX11L1-002"; transcript_source "havana";

当前所广泛使用的GTF格式为第二版(GTF2),它主要是用来描述基因的注释。GTF格式大部分与GFF相同,但有两个硬性标准:

  1. feature types是必须注明的;
  2. 第9列必须以gene_id以及transcript_id开头。而且GTF文件的第9列同GFF文件不同,虽然同样是标签与值配对的情况,但标签与值之间以空格分开,且每个特征之后都要有分号;(包括最后一个特征); gene_id “geneA”;transcript_id “geneA.1”;database_id “0012”;modified_by “Damian”;duplicates 0;

GFF 文件与 GTF 文件相互转换

使用Cufflinks里面的工具gffread

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
#gff2gtf
gffread my.gff3 -T -o my.gtf
#gtf2gff
gffread merged.gtf -o- > merged.gff3

GTF 文件中提取转录本序列(.fa)

  • Cufflink中的gffread
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gffread transcripts.gtf –g genome.fa –w transcripts.output.fa
# 获取CDS序列
gffread transcripts.gtf –g genome.fa -x cds.output.fa
# 获取蛋白序列
gffread transcripts.gtf –g genome.fa -y protein.output.fa
  • Tophat中的gtf_to_fasta
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
gtf_to_fasta transcripts.gtf genome.fa out_file

使用前先仔细阅读各个参数的意思,选择适合你的需要的参数

获取启动子区序列

注意正负链基因转录起始位点的确定

基因组版本信息对应

具体见这个链接: https://genome.ucsc.edu/FAQ/FAQreleases.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-08-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
生物信息学技能面试题(第5题)-根据GTF画基因的多个转录本结构
可以下载各种gtf,从NCBI,ENSEMBL,UCSC,GENCODE都可以!(记住,你下载什么样的gtf就需要修改成什么样的代码!!!)本文来源于我的个人博客: 画基因结构图! http://ww
生信技能树
2018/03/08
1.3K0
生物信息学技能面试题(第5题)-根据GTF画基因的多个转录本结构
Linux进阶 02 生物信息学常见文件格式
第三列 feature 基因结构:transcript,gene,exon,CDS,start_codon,stop_codon,UTR...
可乐同学与生信死磕到底
2024/04/17
1330
RNA-seq入门实战(二):上游数据的比对计数——Hisat2+ featureCounts 与 Salmon
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
生信技能树
2022/07/26
5K0
RNA-seq入门实战(二):上游数据的比对计数——Hisat2+ featureCounts 与 Salmon
原核生物基因预测
在得到了一个物种的基因组序列之后,就可以开始对其序列进行分析了。序列分析主要包括结构基因组分析,功能基因组分析以及比较基因组分析几部分。通过对序列进行全面地分析,在基因组水平上了解一个物种的特点。序列分析主要包括基因预测,基因功能注释,ncRNA,重复序列,特殊功能序列,比较基因组等方面。
生信喵实验柴
2022/10/25
1.6K0
原核生物基因预测
没有自己的服务器如何学习生物数据分析(下篇)
编者注:在上篇文章《没有自己的服务器如何学习生物数据分析》上篇,我们对 IBM 云计算平台有了基本了解,也学习了如何对数据进行下载上传以及基本的预处理。 在《没有自己的服务器如何学习生物数据分析》下篇,我们将继续跟随作者的脚步学习如何利用IBM云计算平台处理实际的生物学数据分析问题。题目来自生信技能树论坛,论坛网址:http://biotrainee.com/forum.php/ 如果你没有看过上篇内容,建议你先去阅读没有自己的服务器如何学习生物数据分析(上篇) 祝阅读愉快,下面是文章正文! 首先思考一下提
生信技能树
2018/03/08
1.4K0
没有自己的服务器如何学习生物数据分析(下篇)
Linux基础 Day2
常见用法:1. paste file1 file2 2. seq 20 | paste - -
用户11008504
2024/06/01
1020
基因组中的趣事(一):这个基因编码98种转录本
从ENSEMBL的注释来看,人基因组中包含60,676个注释的基因,19968个蛋白编码基因。这些基因长度不同、位置不同、转录出的转录本不同,下面我们用几篇推文一步步去了解下基因组中的基因都有哪些令我们惊讶的地方。
生信宝典
2021/10/22
1.1K0
基因组中的趣事(一):这个基因编码98种转录本
详解GFF转换为GTF文件
存储基因和转录本的结构信息,gtf和gff3两种格式都可以。在实际分析时,会需要转换两种格式。比如,NCBI 只提供了GFF格式的下载文件,我们需要转换成GTF文件之后再使用。
生信修炼手册
2020/05/08
4.9K0
生物信息学常见数据格式以及文本处理(grep/sed/awk)
-r:在整个目录进行匹配 ⚠️在这里目录必须和指令放在一起 eg:grep "gene" -r Data/ (-r和目录必须相连)
顾卿岚
2023/02/20
1.5K0
GFF文件格式简介
组装得到基因组的序列只是开展基因组研究的第一步,基因的结构是基因组后续功能研究的基石。在NCBI中,除了提供基因组序列外,还提供了基因结构的信息,采用的就是GFF格式。human示例如下
生信修炼手册
2020/05/08
8.9K0
GFF文件格式简介
使用中国区chatGPT解析gtf文件
值得注意的是,里面的 AnnoProbe包是可以根据不同物种的ENSEMBL信息去转为SYMBOL信息,实际上它这个转换是基于我对人类和小鼠的gtf文件的解析。
生信技能树
2023/09/04
4220
使用中国区chatGPT解析gtf文件
wk文本处理
接着,我们可以使用awk模仿cut的操作(结果与cut -f2,3 example.bed一致):
ruochen
2021/12/05
1.3K0
使用refGenome加上dplyr玩转gtf文件
当然,这个gtf是有非常多的值得探索的地方,比如可以完成http://www.biotrainee.com/thread-626-1-1.html 我在生信技能树»生信技能树›互动作业›脚本能力实践›生信人必练的200个数据处理任务›生信编程直播第三题:hg38每条染色体基因,转录本的分布 !
生信技能树
2018/12/24
1.8K0
GTF文件格式简介
GTF是在GFF的基础上发展而来,二者有很多类似的地方,都是\t分隔的9列文件,内容也比较接近。GFF能够包含的信息更多更全,可以包含染色体,基因,转录本的信息,而GTF主要用来描述基因和转录本的信息。
生信修炼手册
2020/05/08
6.9K0
如何快速从基因组中提取基因、转录本、蛋白、启动子、非编码序列?
NGS基础 - GTF/GFF文件格式解读和转换这篇文章有读者留言想要提取外显子,内含子,启动子,基因体,非编码区,编码区,TSS上游1500,TSS下游500的序列。下面我们就来示范如何提取这些序列。
生信宝典
2022/01/18
5.4K0
Linux_生物信息学常见文件格式
fastq:一种保存生物序列(通常为核酸序列)及其测序质量得分信息的文本格式。FASTQ文件中,一个序列通常由四行组成: • 第一行:以 @ 开头,之后为序列的标识符以及描述信息 • 第二行:为序列信息,如 ATCG • 第三行:以 + 开头,之后可以再次加上序列的标识及描述信息(保留行) • 第四行:为碱基质量值,与第二行的序列相对应,长度必须与第二行相同
大胖橘
2023/03/30
1.3K0
鉴定lncRNA流程全套代码整理
前两期周更我们通过一篇文章的复现整理了mRNA和lncRNA分析基本流程,但并没有涉及新lncRNA的鉴定,本周的推文本质上是我个人学习鉴定lncRNA的全套流程笔记,整合了我们公众号往期的资源,对代码进行了勘误更新,内容非常详实。
生信菜鸟团
2023/08/23
3.4K1
鉴定lncRNA流程全套代码整理
贴心 | GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3
目前基因组测序和组装成本几乎已经到任何一个课题组都可以单独负担的价码,大量物种的基因组序列被测定和释放。与此同时,对应的基因结构注释信息文件,如GTF或GFF3文件等,也可公开下载。
CJ-Chen
2021/04/13
1.5K0
贴心 | GXF Fix 修复 / 优化基因结构注释信息文件 - GTF/GFF3
转录组测序数据的高级分析,比如可变剪切,融合基因,lncRNA组装
如果是6~16个转录组样品的测序的fastq数据,需要走转录组高级分析,比如可变剪切,融合基因,de novo的lncRNA组装,我们仅仅是收取一个计算机资源的费用,800到1600元人民币即可,并且提供全套代码。不管是公共数据集还是你自己的实验测序数据,一样的费用!我们会代替你跑如下所示的流程:
生信技能树
2021/10/21
2.6K0
转录组测序数据的高级分析,比如可变剪切,融合基因,lncRNA组装
为什么一个基因可以既是lncRNA又是protein_coding
这个 gencode.v36.annotation.gtf.gz 文件也就是不到50M,所以很快就下载完毕,然后使用下面的代码格式化:
生信技能树
2021/02/04
1.6K0
推荐阅读
相关推荐
生物信息学技能面试题(第5题)-根据GTF画基因的多个转录本结构
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验