前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >转录组分析 | 使用Trimmomatic过滤Fastq文件

转录组分析 | 使用Trimmomatic过滤Fastq文件

作者头像
生信小王子
发布2020-08-10 16:57:03
3.4K0
发布2020-08-10 16:57:03
举报
文章被收录于专栏:生信小王子生信小王子

随着测序成本的不断降低,RNA-seq已经是许多实验的标配。经过小编一段时间的准备,接下来的几周时间里,将推出一系列的转录组分析教程,教大家从零开始学习转录组分析,欢迎大家持续关注!

上一期,小编教大家使用FastQC评估了自己手中RNA-seq数据的质量,今天教大家使用Trimmomatic切除数据中的接头序列和低质量序列。

代码语言:javascript
复制
## 下载Trimmomatic
wget -c http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.39.zip
## 解压
unzip Trimmomatic-0.39.zip
## 进入目录
cd Trimmomatic-0.39

进入目录后,我们可以看到Trimmomatic的执行文件是一个Java文件,所以在运行前,需要先安装Java。

安装好Java后,就可以运行程序啦!

代码语言:javascript
复制
## 切除接头序列
java -jar ./trimmomatic-0.39.jar PE -phred33 -trimlog seq.log -threads 4 seq1.fq.gz seq2.fq.gz seq1.clean.fq.gz seq1.unpaired.fq.gz seq2.clean.fq.gz seq2.unpaired.fq.gz ILLUMINACLIP:./adapters/TruSeq3-PE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50

参数介绍:

PE:过滤双端测序数据(如果数据是单端测序的,则用SE)。

phred33:Fastq文件的质量值格式为phred33,一般二代测序数据的格式基本都是phred33,如果不清楚自己数据格式的话可以咨询测序公司。

trimlog:设置日志文件。

threads:设置线程数。

seq*.fq.gz:需要过滤的Fastq文件。

seq*.clean.fq.gz:过滤后的Fastq文件。

ILLUMINACLIP: ./adapters/TruSeq3-PE.fa指去除illumina测序平台下的TruSeq3接头序列,具体使用哪个接头序列可以咨询测序公司。

接头序列后跟的3个数字(2:30:10)分别代表比对时允许的最大错配数,两条reads与接头序列的匹配率和单条reads与接头的匹配率。2:30:10即表示,在比对接头序列时允许有两个位置的碱基发生错配,双端测序的两条reads与接头序列匹配率超过30%的话,就会被切除掉,单条reads如果与接头序列的匹配率超过10%,也会被切除掉。

SLIDINGWINDOW:5:20表示以5bp为窗口进行滑窗统计,切除碱基平均质量低于20的窗口及之后的序列。

LEADING:5表示切除reads 5’端质量值低于5的碱基,直到某一个碱基的质量值大于5。

TRAILING:5表示切除reads 3’端质量值低于5的碱基,直到某一个碱基的质量值大于5。

MINLEN:50表示去除过滤后长度低于50的reads。

除了这些参数外,如果我们想要切除reads开头的碱基,可以使用HEADCROP 参数。

代码语言:javascript
复制
## 切除reads开头碱基
java -jar ./trimmomatic-0.39.jar PE -phred33 -trimlog seq.log seq1.fq.gz seq2.fq.gz seq1.clean.fq.gz seq1.unpaired.fq.gz seq2.clean.fq.gz seq2.unpaired.fq.gz HEADCROP:9

HEADCROP:9表示切除reads开头9个碱基。

如果想切除reads末端的序列,仅保留前一部分,可以使用CROP 参数。

代码语言:javascript
复制
## 切除reads末端碱基
java -jar ./trimmomatic-0.39.jar PE -phred33 -trimlog seq.log seq1.fq.gz seq2.fq.gz seq1.clean.fq.gz seq1.unpaired.fq.gz seq2.clean.fq.gz seq2.unpaired.fq.gz CROP:130

假设reads长度为150,CROP:130代表切除reads后20个碱基,仅保留前130个碱基。

参考资料:

https://zhuanlan.zhihu.com/p/28802083

https://www.jianshu.com/p/a8935adebaae

http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/TrimmomaticManual_V0.32.pdf

转录组分析教程:

转录组分析 | 使用FastQC进行数据质控

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信小王子 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档