FastQC软件可以对fastq格式的原始数据进行质量统计,评估测序结果,为下
一步修剪过滤提供参考。
FastQC主页:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/
脚本后台运行:nohup &
• nohup
:no hang up(不挂起),退出终端不会影响程序的运行
• &
:后台运行
fastqc -t 6 -o ./ SRR*.fastq.gz
nohup fastqc -t 6 -o ./ SRR*.fastq.gz >qc.log &
nohup sh qc.sh > qc.log &
以碱基(对)数或者测序read数统计测序
数据量的大小
Ø b:表示base pairs,即碱基(对)
Ø M:Million,百万
Ø 1Mb = 10^6b,即10^6个b
Ø 1Gb = 10^3Mb,即10^9个碱基
###计算机中物理存储单位
Gb:Gigabyte,简写为G,是一种十进制
的信息计量单位,表述数据物理存储
Ø b:byte,表示字节数
Ø 1Mb = 1024kb
Ø 1Gb = 1024Mb
这幅图展示的是fq文件中每一个位置上的所有read的碱基质量值的一个箱式图。
比如,我的fq有25000个read,第一个位置上的base(碱基)就有25000个质量值,这个值画成第一个箱子,依此往后推
使用MultiQc整合FastQC结果 https://multiqc.info/
测序得到的原始序列含有接头序列或低质量序列,为了保证信息分析的准确性,
需要对原始数据进行质量控制,得到高质量序列(即Clean Reads),原始序列质量控制的标准为:
(1) 去除含接头的reads;
(2) 过滤去除低质量值数据,确保数据质量;
(3) 去除含有N(无法确定碱基信息)的比例大于5%的reads;
trim_galore官网:http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
1.任务投递:
前台运行:直接运行
后台运行:nohup,&
前台转后台/后台转前台:bg/fg
2.终止任务:
暂停:Ctrl+Z
终止:Ctrl+C
,kill
3.任务查看:
top
ps fxww
jobs
cat ID | while read id
do
echo “ trim_galore --phred33 -q 20 --length 36 --max_n 3 --stringency 3 --fastqc --paired -o ${cleandata} ${rawdata}/${id}_1.fastq.gz ${rawdata}/${id}_2.fastq.gz “
done
过滤后的cleantada带有fq结尾的文件:
SRR1039510_1_val_1.fq.gz
SRR1039510_2_val_2.fq.gz
fastqc报告结果,带有fastqc结尾的文件
SRR1039510_1_val_1_fastqc.html
SRR1039510_1_val_1_fastqc.zip
SRR1039510_2_val_2_fastqc.html
SRR1039510_2_val_2_fastqc.zip
trim_galore运行过滤参数等细节文件,带有
trimming_report关键字。
SRR1039510_1.fastq.gz_trimming_report.txt
SRR1039510_2.fastq.gz_trimming_report.txt
小技巧:\
的妙用
表示手动换行,命令较长时,可以手动换行让命令可读性更高,更美观。
Note:\
的后面不能有空格
过滤后的cleandata,fq结尾:
SRR1039510_1.fastp.fq.gz
SRR1039510_2.fastp.fq.gz
过滤后的报告,html结尾:
SRR1039510.html
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。