欢迎关注”生信修炼手册”!
在利用RNA_seq数据预测环状RNA时,大多数情况下只能够得到环状RNA的基因组位置,包括头尾的染色体位置,正负链等信息,而没有环状RNA对应的来源基因,序列等信息,这些信息都需要我们通过和已有的线性RNA的数据比对得到,这一步在分析中称之为环状RNA的注释。
对于环状RNA注释,不同团队有不同的做法,核心就是利用环状RNA的基因组位置和已知的转录本去比较,确定是否和已知转录本有重叠,从而确定来源基因和对应的转录本。
在starBase数据库中,提供了一系列环状RNA注释工具,网址如下
http://starbase.sysu.edu.cn/starbase2/circTools.php
其中circSeeker和circAnno就是用来进行环状RNA注释的工具
circAnno需要两个输入文件,一个为环状RNA对应的bed格式的文件,另外一个为线性RNA对应的bed12格式的文件,以circBase数据库中的环状RNA为例来看下这个软件的具体用法。
wget http://www.circbase.org/download/hsa_hg19_circRNA.bed
cut -f1-6 hsa_hg19_circRNA.bed > circRNA.bed6
利用table browser进行下载,图示如下
circAnno hg19.bed12.txt circRNA.bed6 > annotation.xls
输出结果内容如下
前六列的内容就是环状RNA的bed文件内容,只不过在第四列的基础上增加了转录本注释信息,match
表示和转录本的exon完全匹配,overlap
表示重叠,intergenic
代表是基因间区。最后三列分别代表重叠区域的外显子个数,外显子长度和外显子的起始位置,和bed12文件中的内容一致。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!