首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

番茄转录组分析实战:RNA-Seq质量检测

一、RNA-Seq原理介绍

如果想要理解为什么RNA-Seq需要做质量控制(Quality Control)和预处理,我们首先需要简单了解RNA-Seq的实验部分。RNA-Seq实验部分:

注意,我们这里的RNA-Seq指的是mRNA-Seq,另外大家如果觉得看文字不过瘾,可以搜索『陈巍学基因』,其中有mRNA-Seq测序的视频。样本处理文库构建

Figure 1

Figure 2

2. 测序仪测序

二、RNA-Seq误差来源

RNA-Seq中的质量问题既可能来自于文库准备阶段,也可能来自于测序仪测序的过程。问题包括『低质量碱基』、『序列特异性偏差』、『3'/5'位置偏差』、『PCR反应artifical』、『未被去除的adapter』、『测序污染』。大部分错误能够通过过滤、切除、误差校正、偏差校正来修正,但还有些问题不能被校正。

低质量碱基

错误碱基Ns

接头(adapter)/引物(primer)

序列特异性偏差和错配

GC含量

PCR artifical

测序污染

以上只是文库准备、测序过程中的可能错误来源,实验设计导致的误差这里不提及

需要注意的是,目前并没有一个测序数据预处理的金标准,预处理的过程其实也是准确度和完整性的妥协,随着阈值设的越来越高,准确性上升,但测序数据完整性不高,也会引发后续处理的一些问题。

三、fastQCfastQC官网:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/,有windows、mac、linux版本。官网提供了fastQC运行结果的示例,有好的报告,也有质量较差的报告。

关于fastQC报告的解读,大家可以直接看作者给的文档,也可以看文章

文档: http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/fastQC脚本:

#!/bin/bash

## Date: 2018.01.14

## Author: Zhu Mengyan

## Purpose: RNA-Seq data analysis for Tomato

## Example: Transcriptome Analysis of the Cf-12-Mediated Resistance Response to Cladosporium fulvum in Tomato

## working directory

WORKING_DIR="/public/ptbus/home/zhumy/learn_bioinfo/rna-seq/example1"

## raw data

RAWDATA="$WORKING_DIR/rawdata"

## genome

GENOME="$WORKING_DIR/genome.fa"

## transcriptome

GTF="$WORKING_DIR/genes.gtf"

## threads

THREADS=8

######################## Quality Control ##################

## executable file for fastqc

FASTQC="/public/ptbus/home/zhumy/software/FastQC/fastqc"

cd$RAWDATA

mkdir -p result/FastQC## create output directory

forfile in`ls`

do

file_suffix=${file##*.}## suffix of raw file

if[$file_suffix="fastq"][$file_suffix="fq"];#### suffix of raw file should be fastq or fq

then

$FASTQC-o result/FastQC -t$THREADS$file&## begin QC

fi

done

结果包括html、zip两部分,html是以网页形式可视化结果,而zip则包含分析数据:

四、multiQC的使用

上一步的fastQC是对每个fastq文件生成一个报告,这样报告太多,不利于我们的分析。我们可以使用multiQC包来将fastqc的分析报告整合起来。

这是一个python包, Aggregate results from bioinformatics analyses across many samples into a single report,支持58种生信分析软件的结果整合。

######## multiQC (python3.5) ########

cdresult/QC

sourceactivate python3.5#### activate python3.5 environment

#conda install -c bioconda multiqc

multiqc ./*.zip

五、结果下载

fastQC和multiQC的结果大家可以通过下面的链接下载,看看这批数据的质量怎么样。链接: https://pan.baidu.com/s/1bpVvtNL密码: o98i

六、预告

介绍完QC,后面就该介绍预处理了。敬请期待~~

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180115G0DK1B00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券