前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Trimmomatic 数据过滤

Trimmomatic 数据过滤

作者头像
生信编程日常
发布2020-06-28 15:52:15
1.3K0
发布2020-06-28 15:52:15
举报

Trimmomatic 是一个很常用的 Illumina 平台数据过滤工具。支持 SE 和 PE 测序数据。主要用来去除 Illumina 平台的 fastq 序列中的接头,并根据碱基质量值对 fastq 进行修剪。 用法:

代码语言:javascript
复制
Trimmomatic=~/biotools/Trimmomatic-0.36/trimmomatic-0.36.jar
adapter=~/biotools/Trimmomatic-0.36/adapters
for name in `ls p0_LV-RV |cut -d '_' -f1,2,3,4|sort |uniq`;
do
java -jar "$Trimmomatic" PE -phred33 p0_LV-RV/${name}_R1.fastq.gz p0_LV-RV/${name}_R2.fastq.gz p0_LV-RV_clean/${name}_R1.fastq.gz unpaired/${name}_R1.unpaired.fastq.gz p0_LV-RV_clean/${name}_R2.fastq.gz unpaired/${name}_R2.unpaired.fastq.gz ILLUMINACLIP:"$adapter"/TruSeq3-PE.fa:2:30:10:1:TRUE LEADING:20 TRAILING:20 SLIDINGWINDOW:4:15 -threads 8 MINLEN:50
done

处理步骤及主要参数: Trimmomatic 过滤数据的步骤与命令行中过滤参数的顺序有关,通常的过滤步骤如下: ILLUMINACLIP: 过滤 reads 中的 Illumina 测序接头和引物序列,并决定是否去除反向互补的 R1/R2 中的 R2。 SLIDINGWINDOW: 从 reads 的 5’ 端开始,进行滑窗质量过滤,切掉碱基质量平均值低于阈值的滑窗。 MAXINFO: 一个自动调整的过滤选项,在保证 reads 长度的情况下尽量降低测序错误率,最大化 reads 的使用价值。 LEADING: 从 reads 的开头切除质量值低于阈值的碱基。 TRAILING: 从 reads 的末尾开始切除质量值低于阈值的碱基。 CROP: 从 reads 的末尾切掉部分碱基使得 reads 达到指定长度。 HEADCROP: 从 reads 的开头切掉指定数量的碱基。 MINLEN: 如果经过剪切后 reads 的长度低于阈值则丢弃这条 reads。 AVGQUAL: 如果 reads 的平均碱基质量值低于阈值则丢弃这条 reads。 TOPHRED33: 将 reads 的碱基质量值体系转为 phred-33。 TOPHRED64: 将 reads 的碱基质量值体系转为 phred-64。 -phred33 和 -phred64 参数指定 fastq 的质量值编码格式,如果不设置这个参数,软件会自动判断输入文件是哪种格式(v0.32 之后的版本都支持),虽然软件默认的参数是 phred64,如果不确定序列是哪种质量编码格式,可以不设置这个参数。

参考: http://www.biotrainee.com/thread-1484-1-1.html

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档