前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >转录组分析 | 使用FastQC进行数据质控

转录组分析 | 使用FastQC进行数据质控

作者头像
生信小王子
发布2020-08-10 16:57:11
2.5K0
发布2020-08-10 16:57:11
举报
文章被收录于专栏:生信小王子生信小王子

随着测序成本的不断降低,RNA-seq已经是许多实验的标配。经过小编一段时间的准备,接下来的几周时间里,将推出一系列的转录组分析教程,教大家从零开始学习转录组分析,欢迎大家持续关注!

在拿到测序数据后,我们首先要了解手中数据的质量,因为测序的质量直接影响下游分析的准确性,所以在我们进行转录组数据分析前,第一步应该判断测序质量的好坏。

判断测序数据质量的工具有很多,今天教大家用FastQC 检测测序数据的质量。

代码语言:javascript
复制
## 下载FastQC
wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip
## 解压unzip
fastqc_v0.11.8.zip
## 进入目录
cd FastQC
## 运行FastQC
./fastqc seq1.fq.gz seq2.fq.gz -ooutput_dir -t threads

-o:输出文件目录

-t:线程数

运行完FastQC以后,输出目录下会产生一个fastqc.html文件,我们可以打开该文件来评估测序数据的质量。

FastQC产生的结果文件中主要包含以下几个指标:

其中绿色代表通过质控(质量高),橙色代表警告(质量一般,数据还可以用),红色代表未通过质控(质量差,需要确定一下该指标未通过的原因)。

指标1:基本统计信息

表格展示了我们数据的基本信息。从表格里我们可以得出fastq文件的测序平台,总reads数,reads长度和GC含量等信息。

指标2:碱基测序质量

图中横坐标表示每条reads上碱基的位置,由图可知,我们的reads长150。纵坐标表示碱基的质量值QUAL,该QUAL=-10*log10(碱基错误率),如果QUAL为20,则表示该处碱基测序错误率为1%(0.01),如果QUAL为30,则表示该处碱基测序错误率为0.1%(0.001)。黄色的箱形图表示所有reads在这个位置的质量值分布,箱形图上的红线代表质量值的中位数,蓝线代表质量值的平均数。一般来说,reads末端的碱基质量值会低一些,但是只要没有大面积的碱基质量低于20,问题都不是很大。如果一些位置碱基质量太低的话,可以考虑去掉。

指标3:每条reads的碱基质量平均值

图中横坐标表示每条reads的碱基质量平均值,纵坐标表示reads数。由图可知,大部分reads的碱基质量平均值集中在36左右,几乎全部reads的碱基质量平均值都在20以上,说明测序质量非常好。

指标4:碱基分布情况

图中横坐标表示每条reads上碱基的位置,纵坐标表示每种碱基在该位置数量的百分比。一般来说,如果测序过程是随机的话,A和T的比例应该相近,C与G的比例也应该相近,像图中9bp前出现的碱基比例波动其实是正常的。如果大家发现自己的数据只是前2bp有波动,其实数据还是可以的,因为测序开始时,状态不稳定,很容易产生波动。

指标5:GC含量统计

图中横坐标为reads的GC含量,纵坐标是reads的数目。蓝线是GC含量理论值,红线是实际值。一般来说两个曲线越接近数据质量越好。像上图这种情况,有可能是某些区域被反复测序导致的。

指标6:N碱基含量

图中横坐标表示每条reads上碱基的位置。纵坐标表示N碱基的百分比。理论上N碱基应该如图所示,基本是不存在的。

指标7:reads长度分布

图中横坐标表示reads的长度,纵坐标表示reads的数量。由图可知,数据里reads的长度集中在150bp,未出现极短的reads,说明数据质量较好。

指标8:重复序列比例

图中横坐标表示reads重复次数,纵坐标表示reads比例。蓝线表示所有reads的分布情况,红线表示去重后reads的分布情况。如果含有的重复序列超过50%,说明测序数据可能有一些问题。

指标9:过表达序列

过表达序列指大量重复出现的序列,图中显示无过表达序列,说明测序质量很好。

指标10:接头序列

图中横坐标表示每条reads上碱基的位置。纵坐标表示接头序列碱基的百分比。图中显示数据中不含接头序列。

通过以上10个指标对测序数据进行初步评估,我们就可以对自己数据的质量有一个大概了解,进入下一步的分析阶段。

如果对以上步骤有任何疑问,可以随时在后台与小编交流~

参考资料:

https://zhuanlan.zhihu.com/p/28802083

https://www.jianshu.com/p/fe6af418a8bc

http://blog.sciencenet.cn/blog-3406804-1161193.html

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信小王子 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档