通常大家提到转录组测序,指的是mRNA-seq,在测序文库构建的实验阶段我们有两个选项:
因为真核生物的mRNA都是有polyA尾巴结构,示意图如下:
但是慢慢的科研热点转到了lncRNA,虽然lncRNA只有部分具有polyA尾结构,但也意味着公共数据库里面海量的mRNA-seq表达矩阵里面,都是可以提取到lncRNA部分,新的分析图表就出来了。在很多综述或者教程都可以看到对lncRNA的这样的总结:
既然都说lncRNA只有部分具有polyA尾结构,我这里出一个学徒作业,希望大家可以下载人和鼠的gtf文件,以及转录本fasta序列文件,自己去探索一下:
gtf文件记录了多少个基因,多少个是蛋白编码基因多少个是lncRNA呢?其中各自的具有polyA尾结构的比例是多少呢?
可以使用R,SHELL,PYTHON或者PERL等多种编程语言完成这个探索任务,更多习题见:生物信息学编程实战
习题目录