指bam文件中的每一行数据,即测序下机文件fastq与参考基因组进行比对之后生成的数据,其中记录了每条read在参考基因组中的位置,有起始位置和终止位置,表示一段区间
基因注释文件记录了每个基因片段在参考基因组上的位置.../GFF格式是基因注释的常用格式
GTF是Gene Transfer Format的缩写,其文件由九列数据组成,以tab分割,示例如下:
seq_id source type start end score...虽然数据有九列之多,但并不是所有都会用到,常用的有:
seq_id....一些列键值对属性,常用的信息包括名称,id之类
注释流程分析
流程可分为三步:
读入gtf文件. 从磁盘将gtf文件加载进内存,并提取需要的信息,毕竟gtf有许多信息是我们不需要的
建立区间树....(this.STRAND_TAG, null);
}
return (r);
}
概况一下注释逻辑:对read构建interval,查找overlap的所有基因,