RNA-seq数据毫无疑问是目前NGS领域被使用最频繁的了,但是大部分科研人员对它的理解,还停留在表达量层面,尤其是基于基因的表达量,无非就是分组,然后走差异分析这样的统计学检验,绘制火山图和差异基因热图,上下调的通路。全部的学习资料我都视频录制免费共享在B站了:
先不说大家对RNA-seq数据的标准分析是否一定是对的,这样的简陋的分析其实是对数据的暴殄天物!
看到一篇2019年5月发表在Molecular Neurodegeneration杂志的文章:TREM2 brain transcript-specific studies in AD and TREM2 mutation carriers 把普通的RNA-seq数据根据自己的生物学背景挖掘了一下。背景知识需要去搜索了解Triggering Receptor Expressed in Myeloid cells 2 (TREM2)这个基因,以及它的3个转录本。
都是European-Americans,测序数据是:
来源于3个不同的机构:
每个样本平均测序数据量是 134.9 million ,是2 × 101bp的测序策略。
其中2个机构的数据是已有的,数据下载方式:
转录组数据分析流程,主要是软件选择,参考基因组版本:
关于转录本的差异分析,我们分享过salmon+DRIMseq流程,在前些天的推文里面,见:每月一生信流程之rnaseqDTU(差异转录本)
在文章导论大量介绍了TREM2)这个基因,以及它的3个转录本。同时看了3个队列的这个基因的3个转录本的表达量情况。
We were able to detect and quantify the levels of three TREM2 transcripts ENST00000373113, ENST00000373122 and ENST00000338469 using RNA-seq data from AD and control brains from three different, independent studies.
image-20191118111906902
不过这样的分析仍然是片面的,因为作者仅仅是关心自己生物学背景的基因,下面的全局比较的总结表格其实是不可或缺的。
image-20191118222328335
看到[article](https://ashpublications.org/bloodadvances/article-lookup/doi/10.1182/bloodadvances.2019000404) Transcriptome analysis offers a comprehensive illustration of the genetic background of pediatric acute myeloid leukemia. Blood Adv 文章就是日本研究团队的 [RNA-seq] in 139 of the 369 patients with de novo pediatric AML ,这样文章落脚点就是基因融合事件,54 in-frame gene fusions and 1 RUNX1 out-of-frame fusion in 53 of 139 patients.
在大的病人队列里面,提供实验验证了 258 gene fusions in 369 patients (70%) 。
image-20191118110449107
因为有RNA-seq数据的只有139个病人,所以 突变全景图如下:
image-20191118110604155
甚至找到的基因融合事件,可以当做是病人的一种表型信息进行分析:
image-20191118111159029