fastq测序数据质控的时候
首先fastq测序数据质量控制表格就发现质量差的可怜,而且居然有GC含量的双峰,如下:
遇到这样的情况,就必须单独看具体的每个样本,上面的GC含量图表是项目里面全部的样本的multiqc汇总图表。
我随机抽一个样本的fastqc报告看了看,如下:
这个59%到67%的GC含量reads有点多啊,就是第一个GC峰值。
然后80%附近GC含量reads也有点多,就是第二个GC含量峰值。
这两个GC含量峰值就是需要解决的问题,正常的RNA-seq数据不会出现这样的情况。
我们有必要仔细看看具体那些动辄一两百万的同一个GC含量的reads是什么,看了看,如下所示:
Sequence Count Percentage Possible Source
CCGGCCCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGGG 470519 1.6550810978094788 No Hit
CTGGAGTGCAGTGGCTATTCACAGGCGCGATCCCACTACTGATCAGCACG 424455 1.4930479903483649 No Hit
GCGGGGGGCCCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTT 208855 0.7346610077021304 No Hit
CCCGGCCCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGG 201384 0.7083812806736052 No Hit
GTCCCGGCCCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGC 189063 0.6650413641003944 No Hit
GCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCGC 185766 0.6534439527748628 No Hit
GGGGGCCCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGT 184881 0.6503309078785644 No Hit
GGCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCG 184406 0.6486600645726416 No Hit
CGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGTCTTCCTC 175251 0.6164567583290131 No Hit
GGCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGCTGGAGGATCG 169817 0.597342310909256 No Hit
GCGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGCTGGAGGATCGC 169282 0.5954604137120588 No Hit
CGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCGCT 167647 0.5897091951748297 No Hit
CGGGGGGCCCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTC 161679 0.5687163681227297 No Hit
CCGGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGTCTTCCT 159369 0.560590793308663 No Hit
GGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGGGAACCGAAGAAGC 155126 0.5456657656307039 No Hit
CGCGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGCTGGAGGATCGCT 152267 0.5356090477114759 No Hit
CCGGAGCGGACGAGCCGCCCCGGCGGTGAACGGGGAGGAGGCGGGAACCG 150767 0.5303327004296142 No Hit
GGCGGGGCGTGCGCGTCCGGCGCCGTCCGTCCTTCCGTTCGTCTTCCTCC 131952 0.4641497176907975 No Hit
GCTATTCACAGGCGCGATCCCACTACTGATCAGCACGGGAGTTTTGACCT 128737 0.45284074668334084 No Hit
CCAGGCTGGAGTGCAGTGGCTATTCACAGGCGCGATCCCACTACTGATCA 124272 0.4371348196076663 No Hit
CGTGCCTGTAGTCCCAGCTACTCGGGAGGCTGAGGTGGGAGGATCGCTTG 123775 0.43538658987494283 No Hit
这个时候,聪明的读者应该是知道,可以去blast这些序列看看到底是啥情况。
同样的,比对后也使用multiqc汇总,可以看到,多比对情况有点多。一般来说RNA-seq数据,会采取PE100或者PE150的策略,这样的长度其实是很难发生基因组的多比对情况的。
这个时候可以思考一下会不会是基因组的重复序列或集中成簇,根据分布把重复序列分为分散重复序列(Interpersed repeat)和串联重复序列(Tendam repeat)两大类,然后根据两大类中重复序列长度在细分为几个子类。
(下面的思维导图来自于:https://mp.weixin.qq.com/s/vpe8W0QMKngeQ2UuBPd-Gg )
转录组数据比对后,就需要定量,这个时候的质量控制也很重要。
如果你对转录组的基本分析还有问题,可以看我们的教程合辑:
如果你是Linux和R语言基础知识不熟练, 就需要自己恶补啦。计算机基础知识,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
逼自己一把,把R的知识点路线图搞定,如下:
Linux的6个阶段也跨越过去 ,一般来说,每个阶段都需要至少一天以上的学习: