前几天电脑坏了,中间几天狂加班,后几天偷个懒。所以一直没有更新。
今天说去除接头。用到的软件是trimmomatic。conda中安装后命令中不用带java -jar要是别的安装方法,报错的话在命令最前端加上java -jar这条命令。
首先cd进入fastq文件所在目录
然后输入一长串的命令
代码如下
> for filename in *_1.fastq; do
> base=$(basename $filename _1.fastq)
> echo $base
> trimmomatic PE -threads 4 -phred33 $_1.fastq $_2.fastq ~/biodata/example1/clean/$_1_clean_paired.fq ~/biodata/example1/clean/$_1_clean_unpaired.fq ~/biodata/example1/clean/$_2_clean_paired.fq ~/biodata/example1/clean/$_2_clean_unpaired.fq ILLUMINACLIP:/home/ping/miniconda3/share/trimmomatic-0.36-5/adapters/TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
解释一下
~/biodata/example1/clean/$_1_clean_paired.fq ~/biodata/example1/clean/$_1_clean_unpaired.fq ~/biodata/example1/clean/$_2_clean_paired.fq ~/biodata/example1/clean/$_2_clean_unpaired.fq
这四条是输出文件的位置,输出后就是干净文件了,然后在做个qc看看。
ILLUMINACLIP:/home/ping/miniconda3/share/trimmomatic-0.36-5/adapters/TruSeq3-PE.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36
这个是去接头文件的位置,里面包括接头文件,还有去除低质量序列的条件。这个用哪个,条件去除低质量序列,我还真是看的头大,公说公有理婆说婆有理。等回头再总结一个。
程序运行后如下:
没报错,可以用,很快就完了,我们的数据本来就很干净了,所以好多都是0,我的低质量过滤条件应该和之前的不同,还是过滤掉一些的。结果就是这样的
后续我们就用clean数据进行了,当然,我们这个例子就不用clean data了。
顺便一说,这个过滤软件多的很,这个软件似乎只针对illumina结果。其实现在影响不大了,别的二代平台基本都差不过歇菜了。
少写点,偷个懒。先把python学明白。
领取专属 10元无门槛券
私享最新 技术干货