专栏首页用户7627119的专栏gff文件转换成gtf文件

gff文件转换成gtf文件

做测序数据分析的时候经常需要将gff格式的注释文件转换成gtf格式的文件。今天小编就给大家介绍一个工具,gffread来实现这个目的。注意这个工具需要在linux或者mac操作系统上运行。

下面是一个gff3格式文件的例子

##gff-version 3
scaffold625  maker  gene  337818  343277  .  +  .  ID=CLUHARG00000005458;Name=TUBB3_2
scaffold625  maker  mRNA  337818  343277  .  +  .  ID=CLUHART00000008717;Parent=CLUHARG00000005458
scaffold625  maker  tss  337916  337918  .  +  .  ID=CLUHART00000008717:tss;Parent=CLUHART00000008717
scaffold625  maker  start_codon  337916  337918  .  +  .  ID=CLUHART00000008717:start;Parent=CLUHART00000008717
scaffold625  maker  CDS  337915  337971  .  +  0  ID=CLUHART00000008717:cds;Parent=CLUHART00000008717
scaffold625  maker  CDS  340733  340841  .  +  0  ID=CLUHART00000008717:cds;Parent=CLUHART00000008717
scaffold625  maker  CDS  341518  341628  .  +  2  ID=CLUHART00000008717:cds;Parent=CLUHART00000008717
scaffold625  maker  CDS  341964  343033  .  +  2  ID=CLUHART00000008717:cds;Parent=CLUHART00000008717
scaffold625  maker  stop_codon  343031  343033  .  +  .  ID=CLUHART00000008717:stop;Parent=CLUHART00000008717
scaffold625  maker  exon  337818  337971  .  +  .  ID=CLUHART00000008717:exon1;Parent=CLUHART00000008717
scaffold625  maker  exon  340733  340841  .  +  .  ID=CLUHART00000008717:exon2;Parent=CLUHART00000008717
scaffold625  maker  exon  341518  341628  .  +  .  ID=CLUHART00000008717:exon3;Parent=CLUHART00000008717
scaffold625  maker  exon  341964  343277  .  +  .  ID=CLUHART00000008717:exon4;Parent=CLUHART00000008717
scaffold625  maker  five_prime_utr  337818  337914  .  +  .  ID=CLUHART00000008717:five_prime_utr;Parent=CLUHART00000008717
scaffold625  maker  three_prime_UTR  343034  343277  .  +  .  ID=CLUHART00000008717:three_prime_utr;Parent=CLUHART00000008717

而gtf格式文件是这样的

##gtf-version 3
scaffold625  maker  gene  337818  343277  .  +  .  gene_id "CLUHARG00000005458"; ID "CLUHARG00000005458"; Name "TUBB3_2";
scaffold625  maker  transcript  337818  343277  .  +  .  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717"; Parent "CLUHARG00000005458"; original_biotype "mrna";
scaffold625  maker  exon  337818  337971  .  +  .  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:exon1"; Parent "CLUHART00000008717";
scaffold625  maker  exon  340733  340841  .  +  .  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:exon2"; Parent "CLUHART00000008717";
scaffold625  maker  exon  341518  341628  .  +  .  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:exon3"; Parent "CLUHART00000008717";
scaffold625  maker  exon  341964  343277  .  +  .  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:exon4"; Parent "CLUHART00000008717";
scaffold625  maker  CDS  337915  337971  .  +  0  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:cds"; Parent "CLUHART00000008717";
scaffold625  maker  CDS  340733  340841  .  +  0  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:cds"; Parent "CLUHART00000008717";
scaffold625  maker  CDS  341518  341628  .  +  2  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:cds"; Parent "CLUHART00000008717";
scaffold625  maker  CDS  341964  343033  .  +  2  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:cds"; Parent "CLUHART00000008717";
scaffold625  maker  five_prime_utr  337818  337914  .  +  .  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:five_prime_utr"; Parent "CLUHART00000008717";
scaffold625  maker  start_codon  337916  337918  .  +  .  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:start"; Parent "CLUHART00000008717";
scaffold625  maker  stop_codon  343031  343033  .  +  .  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:stop"; Parent "CLUHART00000008717";
scaffold625  maker  three_prime_utr  343034  343277  .  +  .  gene_id "CLUHARG00000005458"; transcript_id "CLUHART00000008717"; ID "CLUHART00000008717:three_prime_utr"; Parent "CLUHART00000008717"; original_biotype "three_prime_UTR";

那么如何安装gffread这个工具呢

1.安装conda

https://www.anaconda.com/products/individual

可以根据自己的操作系统选择相应的版本

2. 通过conda安装gffread

conda install -c bioconda gffread 

3.格式转换,下面这一条命令就可以将gff3格式的注释文件转换成gtf格式的文件了。

gffread gencode.v19.annotation.gff3 -T -o gencode.v19.gtf

当然也可以将gtf格式的文件转换成gff3格式的文件

gffread gencode.vM13.annotation.gtf -o gencode.vM13.annotation.gff3

本文分享自微信公众号 - 生信交流平台(gh_d04ce007f7b8),作者:生信交流平台

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-09-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 详解GFF转换为GTF文件

    存储基因和转录本的结构信息,gtf和gff3两种格式都可以。在实际分析时,会需要转换两种格式。比如,NCBI 只提供了GFF格式的下载文件,我们需要转换成GTF...

    生信修炼手册
  • 用GenePred注释文件进行数据分析

    编者注:前几天在生信技能树我们发现了一个神奇的帖子(http://www.biotrainee.com/thread-928-1-1.html ), 作者用一种...

    生信技能树
  • NGS基础 - GTF/GFF文件格式解读和转换

    GFF 文件 GFF全称为general feature format,这种格式主要是用来注释基因组。 从 Ensembl 导出的GFF文件示例: X E...

    生信宝典
  • 对featureCounts来源的表达矩阵使用DEXSeq分析可变剪切

    实际上,就一个 -t exon -g gene_name 需要理解一下,就是报名数reads数量的时候,只考虑gtf文件里面记录是exon的坐标的reads,然...

    生信技能树
  • 利用Python将gff3转换成gtf格式

    前面我们讲了如何利用工具gffread将gff文件转换成gtf文件。可能有些读者会说我没有安装了linux或者苹果操作系统的电脑。没关系,今天小编再给大...

    生信交流平台
  • gb格式注释文件转换成gff3注释文件格式

    今天在NCBI下载了酵母的参考基因组,没有找到gff格式的基因组注释文件,只找到了genbank格式的基因组注释文件。应该会有现成的工具来实现常用的基因组注释文...

    用户7010445
  • 鉴定新的lncRNA之上游流程

    比如RNA-seq数据,上游就是fastq的质量控制,比对,定量,最后拿到表达矩阵。而下游就是表达矩阵的一系列统计学分析, 包括PCA,相关性热图,层次聚类图,...

    生信技能树
  • Variant 分析阶段小结3-注释碎碎念

    通过上面几步内容,我们找到了一些可信度相对高的突变位置,接下来一定会进行的一个内容就是对已有突变位点进行注释和功能预测。

    生信技能树
  • GTF文件格式简介

    GTF是在GFF的基础上发展而来,二者有很多类似的地方,都是\t分隔的9列文件,内容也比较接近。GFF能够包含的信息更多更全,可以包含染色体,基因,转录本的信息...

    生信修炼手册
  • 从GTF文件中提取TSS上下游1kb的区间,要多少行代码?

    在ATAC_seq数据分析中,需要绘制reads在TSS位点附近的分布图, 如下所示

    生信修炼手册
  • 转录组分析 | 使用Stringtie对数据进行下游处理

    StringTie 是用于 RNA-seq 的转录本组装和定量软件,StringTie 可以看做是cufflinks软件的升级版本,其功能和Cufflinks是...

    DoubleHelix
  • 如何根据class_code筛选转录本?

    得到一个 merged.combined.gtf这个文件里给每一个转录本分配了一个class_code用来表示转录本相对于参考基因组的位置

    用户7010445
  • 生信中常见的数据文件格式

    前面我们介绍了各种测序技术的原理:illumina、Sanger、第三代和第四代测序技术原理,我们测序得到的是带有质量值的碱基序列fastq格式,参考基因组是f...

    DoubleHelix
  • 基因组中的趣事(一):这个基因编码98种转录本

    从ENSEMBL的注释来看,人基因组中包含60,676个注释的基因,19968个蛋白编码基因。这些基因长度不同、位置不同、转录出的转录本不同,下面我们用几篇推文...

    生信宝典
  • 使用MISO进行可变剪切的分析

    MISO是一款经典的可变剪切分析工具,和rmats类似,该软件也支持对可变剪切事件进行定量和差异分析,网址如下

    生信修炼手册
  • lncRNA组装流程的软件介绍之gffcompare

    1.输出文件六个,前四个文件可以指定保存位置,后两个文件是跟输入的gtf文件保存在一个位置,并且都是以-o提供的前缀开头的

    生信技能树
  • scRNA-seq数据处理—文件格式小结

    FastQ是您将遇到的最原始形式的scRNASeq数据。所有scRNASeq方案都使用配对末端测序进行测序。Barcode序列可以在一个或两个re...

    生信技能树jimmy
  • 基因组注释文件(GFF,GTF)下载的四种方法

    Ncbi 里包含现在最全的参考基因组数据,可以进入FTP站点查看:ftp://ftp.ncbi.nlm.nih.gov/genomes/

    白墨石
  • lncRNA组装流程的软件介绍之Stringtie

    该软件的官网:https://ccb.jhu.edu/software/stringtie/index.shtml。

    生信技能树

扫码关注云+社区

领取腾讯云代金券