一、RNA-Seq原理介绍
如果想要理解为什么RNA-Seq需要做质量控制(Quality Control)和预处理,我们首先需要简单了解RNA-Seq的实验部分。RNA-Seq实验部分:
注意,我们这里的RNA-Seq指的是mRNA-Seq,另外大家如果觉得看文字不过瘾,可以搜索『陈巍学基因』,其中有mRNA-Seq测序的视频。样本处理文库构建
Figure 1
Figure 2
2. 测序仪测序
二、RNA-Seq误差来源
RNA-Seq中的质量问题既可能来自于文库准备阶段,也可能来自于测序仪测序的过程。问题包括『低质量碱基』、『序列特异性偏差』、『3'/5'位置偏差』、『PCR反应artifical』、『未被去除的adapter』、『测序污染』。大部分错误能够通过过滤、切除、误差校正、偏差校正来修正,但还有些问题不能被校正。
低质量碱基
错误碱基Ns
接头(adapter)/引物(primer)
序列特异性偏差和错配
GC含量
PCR artifical
测序污染
以上只是文库准备、测序过程中的可能错误来源,实验设计导致的误差这里不提及
需要注意的是,目前并没有一个测序数据预处理的金标准,预处理的过程其实也是准确度和完整性的妥协,随着阈值设的越来越高,准确性上升,但测序数据完整性不高,也会引发后续处理的一些问题。
三、fastQCfastQC官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/,有windows、mac、linux版本。官网提供了fastQC运行结果的示例,有好的报告,也有质量较差的报告。
关于fastQC报告的解读,大家可以直接看作者给的文档,也可以看文章
文档: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/fastQC脚本:
#!/bin/bash
## Date: 2018.01.14
## Author: Zhu Mengyan
## Purpose: RNA-Seq data analysis for Tomato
## Example: Transcriptome Analysis of the Cf-12-Mediated Resistance Response to Cladosporium fulvum in Tomato
## working directory
WORKING_DIR="/public/ptbus/home/zhumy/learn_bioinfo/rna-seq/example1"
## raw data
RAWDATA="$WORKING_DIR/rawdata"
## genome
GENOME="$WORKING_DIR/genome.fa"
## transcriptome
GTF="$WORKING_DIR/genes.gtf"
## threads
THREADS=8
######################## Quality Control ##################
## executable file for fastqc
FASTQC="/public/ptbus/home/zhumy/software/FastQC/fastqc"
cd$RAWDATA
mkdir -p result/FastQC## create output directory
forfile in`ls`
do
file_suffix=${file##*.}## suffix of raw file
if[$file_suffix="fastq"][$file_suffix="fq"];#### suffix of raw file should be fastq or fq
then
$FASTQC-o result/FastQC -t$THREADS$file&## begin QC
fi
done
结果包括html、zip两部分,html是以网页形式可视化结果,而zip则包含分析数据:
四、multiQC的使用
上一步的fastQC是对每个fastq文件生成一个报告,这样报告太多,不利于我们的分析。我们可以使用multiQC包来将fastqc的分析报告整合起来。
这是一个python包, Aggregate results from bioinformatics analyses across many samples into a single report,支持58种生信分析软件的结果整合。
######## multiQC (python3.5) ########
cdresult/QC
sourceactivate python3.5#### activate python3.5 environment
#conda install -c bioconda multiqc
multiqc ./*.zip
五、结果下载
fastQC和multiQC的结果大家可以通过下面的链接下载,看看这批数据的质量怎么样。链接: https://pan.baidu.com/s/1bpVvtNL密码: o98i
六、预告
介绍完QC,后面就该介绍预处理了。敬请期待~~
领取专属 10元无门槛券
私享最新 技术干货