全转录组的数据分析我们一直没有分享过笔记,因为确实也没有这方面直接项目机会,仅仅是跟公众号粉丝交流过一些小问题。全转录组不是全长转录组,全转录组说的是检测普通mRNA,加上 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,而全长转录组说的是测序的时候采取三代测序等技术这样可以把基因的转录产物的全部长度的碱基一次性测序到,这样很方便知道不同可变剪切转录本的区别。
那,为什么我们很少涉及到全转录组的数据分析,主要是因为它有 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,而众所周知,非编码基因的名声比较差,都知道很重要,但是它的重要性又不是直接证据,也没有系统性的go和kegg等生物学数据库的整理,所以大家研究它和交流它的时候通常是一个符号而已。
但无论是普通mRNA,还是 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因,它们最后都是会得到表达量矩阵,其实就是常规差异分析啦,相关流程的公众号推文在:
如果是普通mRNA可以直接去映射到go和kegg等生物学数据库,如果是非编码基因需要先定位到它的靶基因,然后去给靶基因进行go和kegg等生物学数据库注释。
比如NPJ Breast Cancer . 2021 Dec 的文章:《Plasma extracellular vesicle long RNA profiles in the diagnosis and prediction of treatment response for breast cancer 》,是两个队列的全转录组的测序:
其转录组测序在 https://ngdc.cncb.ac.cn/gsa-human/browse/HRA001985 ,可以看到:
转录组测序
虽然文章写的是对172例入组患者的血浆样本进行exLR测序(exLR-seq),发现良性组和乳腺癌组中的mRNAs、lncRNAs、假基因和circRNA较健康组丰富。
这个文章里面的每个样品的测序数据量并不多,就是常规的mRNA的转录组测序的数据量, 它并没有专门的去针对每个样品进行检测普通mRNA,加上 lncRNA,miRNA,CircRNA这样的3种常规 非编码基因得到独立的fastq文件。
所以我们把目光转到另外两个《Molecular Cancer》杂志的文章;
这个是真正的全转录组学测序及数据分析,喉鳞癌(LSCC)和 ANM(癌旁正常黏膜) 组织的两个分组,可以获得差异表达的miRNA、circRNA、lncRNA、mRNA,预测关键分子主要参与的信号通路及生物学过程。
我记得2019年讨论的全转录组学测序及数据分析还是8000一个样品,因为要获得差异表达的miRNA、circRNA、lncRNA、mRNA的4种信息,还得关联分析。目前(2022)应该是不到4000一个全转录组学测序及数据分析样品了,但是全转录组学信息获得并不是只有测序这个手段,另外一个比较成熟的商业解决方案就是芯片技术,比如 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE175962
它就有3款芯片,组合起来也算是全转录组啦。只不过是Agilent的芯片数据分析起来比较麻烦。
下载上面提到的GSE175962数据集的3个芯片表达量矩阵, 各自独立差异分析后,参考上面提到的两个《Molecular Cancer》杂志的文章对差异表达的miRNA、circRNA、lncRNA、mRNA的关联分析,出几个网络图。