基因注释
记录下自己对RNA-seq基因注释的学习,并对Drop-seq软件包中的注释模块进行代码研读
什么是基因注释
一句话概况注释:找到与reads有overlap的基因片段,并进行标记
这里reads...指bam文件中的每一行数据,即测序下机文件fastq与参考基因组进行比对之后生成的数据,其中记录了每条read在参考基因组中的位置,有起始位置和终止位置,表示一段区间
基因注释文件记录了每个基因片段在参考基因组上的位置...有多种类型,如gene/transcript/exon/CDS/UTR等,它们之间有层级关系,一般gtf文件中多行数据对应一条基因的完整信息,以type为gene的行为起始;每条gene可以表示为树状结构...遍历bam文件中每条read,根据其在参考序列中的位置构建interval,与前面建立的interval tree进行overlap的查找,找到之后,进行一些逻辑计算,并更新read的tags,输出到bam...检查list中所有数据,如正反链必须都一致,chr一致等,否则抛出异常
将所有的非gene数据进行统计处理,更新GeneFromGTF成员变量Map