前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >illumina数据质控过滤

illumina数据质控过滤

作者头像
生信喵实验柴
发布2021-12-27 14:35:30
2.8K0
发布2021-12-27 14:35:30
举报
文章被收录于专栏:生信喵实验柴

背景

我们拿到测序的原始数据后,其实并不是所有的都是能用的数据,我们需要先做质控与过滤。首先认识下碱基的指标Q20(百分之一出错率),质量值>=Q20:好碱基,质量值<Q20:坏碱基。不过现在基本都用的Q30(千分之一)、Q40(万分之一)。

还有Q20与Q30百分比用于评估数据质量:

Q20百分比:质量值大于20碱基占总碱基的比例

Q30百分比:质量值大于30碱基占总碱基的比例

数据质量评估标准

一、利用 fastqc 进行质量控制

代码语言:javascript
复制
fastqc 质控
mkdir illumina_qc
fastqc -f fastq -o illumina_qc/ illumina_1.fastq.gz illumina_2.fastq.gz

碱基质量分布图

碱基含量分布图

二、数据过滤

学习目标:

1、知道为何要进行数据过滤;

2、掌握数据过滤的内容;

3、掌握数据过滤软件 fastp 以及 SOAPnuke 的使用;

4、了解其他过数据滤软件;

代码语言:javascript
复制
利用 fastp 进行数据过滤
fastp 数据过滤
fastp -i illumina_1.fastq.gz -I illumina_2.fastq.gz -o clean.1.fq.gz -O clean
.2.fq.gz -z 4 -q 20 -u 40 -n 10 -f 15 -t 15 -F 15 -T 15 -h fastp.html

非“基因组”本身序列

1、adapter接头

2、测序引物

3、barcode

4、index等

数据处理

1、去除adapter

1、空载:

adapter与adapter直接连接,中间没有插入片段,导致 read1测到3'adapter,read2测到5'adapter的反向互补reads尾部测到adapter

2、插入片段过短

插入片段长度小于上机测序循环(cycle)数,导致read1尾 部测到3'adapter,read2尾部测到5'adapter的反向互补

2、去除N碱基过多reads

3、去除低质量

1、以Q20作为判断标准

2、低于Q20碱基占一条reads总碱基的比率

3、例如低于Q20比率占30%

4、去除duplication

两对reads,reads1 完全一致,reads2 完全一致

数据分析中标记Duplication

RNAseq与16S去duplication问题

1、RNAseq与16s测序的duplication并不是打断不随机造成,天然就是某一段表达高,不用去

2、去除duplication会造成丰度信息丢失

数据处理原则

1、不要求100%精确,原则是不影响后续分析

2、可以根据最终结果,重新过滤数据

三、过滤完质控

代码语言:javascript
复制
过滤完质控
mkdir illumina_clean
fastqc -f fastq -o illumina_clean/ clean.1.fq.gz clean.2.fq.gz

四、multiqc合并结果

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-12-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信喵实验柴 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档