基因注释
记录下自己对RNA-seq基因注释的学习,并对Drop-seq软件包中的注释模块进行代码研读
什么是基因注释
一句话概况注释:找到与reads有overlap的基因片段,并进行标记
这里reads...指bam文件中的每一行数据,即测序下机文件fastq与参考基因组进行比对之后生成的数据,其中记录了每条read在参考基因组中的位置,有起始位置和终止位置,表示一段区间
基因注释文件记录了每个基因片段在参考基因组上的位置...,也是一段区间,因此与bam文件结合,通过find overlapping我们可以查找到每条read属于哪个基因片段,将其标记在bam格式的tags中,这对后续的生信分析是有帮助的
基因注释文件
GTF.../GFF格式是基因注释的常用格式
GTF是Gene Transfer Format的缩写,其文件由九列数据组成,以tab分割,示例如下:
seq_id source type start end score...正负链可以作为过滤条件,假如一条read与多个基因有overlap,可以根据方向是否相同过滤掉部分基因
attributes.