五年前我在生信菜鸟团博客分享了 一篇文章学会miRNA-seq分析 ,使用 RNA expression profiling of human iPSC-derived cardiomyocytes in a cardiac hypertrophy model. PLoS One 2014;9(9):e108051. PMID: 25255322 文章里面的 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE60292 数据集,2个分组,共6个样本。
那个时候举例使用的是bowtie2软件比对miRNA的reads到miRBase里面的miRNA序列文件,以及hg38参考基因组,两个策略。后来也看了看很多公司报告,发现大多集中于下游分析,就是拿到了miRNA表达矩阵后的,包括差异分析,靶基因等等。如下所示:
miRNA测序数据分析流程图
我最近在生信技能树分享了几个miRNA的靶向基因的查询工具,分别是:
但是在回看自己五年前的 一篇文章学会miRNA-seq分析 ,发现反而是上游分析并不具备固定的流程,如果上游分析都有疑问,意味着拿到的miRNA表达矩阵本来是有问题的,后续的下游分析也就无从谈起了。
比如发表在Genome Biol. 2014; 的文章Evidence for the biogenesis of more than 1,000 novel human microRNAs的流程就值得介绍:
值得注意的是,small interfering RNA (siRNA), Piwi interacting RNA (piRNA) and microRNAs (miRNAs) 需要区分开来哦,我们现在说的是miRNAs相关的 测序数据分析。
但是绝大部分人在处理miRNA测序数据的时候,并不会有那个时间来仔细琢磨这个数据处理流程。所以,如果你仔细看流程,会发现千奇百怪的数据处理。
在文章 Distinct methylation levels of mature microRNAs in gastrointestinal cancers 可以看到:
tophat2比对miRNA
但是现在的你,可不能照抄哦,五年前我在生信菜鸟团博客写过一个《RNA-seq流程需要进化啦》,上面分享过:
Tophat 首次被发表已经是6年前 Cufflinks也是五年前的事情了 Star的比对速度是tophat的50倍,hisat更是star的1.2倍。 stringTie的组装速度是cufflinks的25倍,但是内存消耗却不到其一半。 Ballgown在差异分析方面比cuffdiff更高的特异性及准确性,且时间消耗不到cuffdiff的千分之一 Bowtie2+eXpress做质量控制优于tophat2+cufflinks和bowtie2+RSEM Sailfish更是跳过了比对的步骤,直接进行kmer计数来做QC,特异性及准确性都还行,但是速度提高了25倍 kallisto同样不需要比对,速度比sailfish还要提高5倍!!!
好奇怪,一直有人坚守bowtie,而不是bowtie2,我猜测是不是因为这个bowtie有一个特殊的功能,是bowtie2所不具备的。
A Panel of MicroRNAs as Diagnostic Biomarkers for the Identification of Prostate Cancer
描述如下:
bowtie比对miRNA
Expanding the repertoire of miRNAs and miRNA-offset RNAs expressed in multiple myeloma by small RNA deep sequencing
bowtie比对第2篇文章
hsa-miR-9-3p and hsa-miR-9-5p as Post-Transcriptional Modulators of DNA Topoisomerase IIa in Human Leukemia K562 Cells with Acquired Resistance to Etoposide
bowtie比对第3篇文章
见发表在 Nucleic Acids Res. 2016 Jan 8; 的文章 Large-scale profiling of microRNAs for The Cancer Genome Atlas:
总结一下,目前是bowtie软件来比对miRNA的reads居多。
欢迎共享哦,比如大家可以看到的tcga数据库的mRNA Analysis Pipeline ,详细代码:
太复杂的流程就算了,比如上面提到的发表在 Nucleic Acids Res. 2016 Jan 8; 的文章的流程:
普通人一辈子也就是处理两三次miRNA数据,并不是TCGA计划那样专业的团队,所以我们仅仅是关心测序reads的清洗问题,接头去除,以及比对的策略。定量之后的表达矩阵分析,反而是很简单的。