前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >跟小新老师学转录组的第二天

跟小新老师学转录组的第二天

原创
作者头像
贝诺酯
发布2023-03-30 16:00:42
3570
发布2023-03-30 16:00:42
举报

数据质量评估

FastQC软件可以对fastq格式的原始数据进行质量统计,评估测序结果,为下

一步修剪过滤提供参考。

FastQC主页:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

数据质控-fastqc的常用参数

数据质控-fastqc运行

脚本后台运行:nohup &

nohup:no hang up(不挂起),退出终端不会影响程序的运行

&:后台运行

方式一:直接运行(霸占你的控制台,霸占你的时间!)

代码语言:javascript
复制
fastqc -t 6 -o ./ SRR*.fastq.gz

方式二:在命令前后加上nohup &(适用于比较简单的命令,快捷方便!)

代码语言:javascript
复制
nohup fastqc -t 6 -o ./ SRR*.fastq.gz >qc.log &

方式三:将命令写入sh脚本,使用nohup &运行sh脚本(适用于比较长和复杂的命令)

代码语言:javascript
复制
nohup sh qc.sh > qc.log &

数据质控-Basic Statistics

数据量统计方式

生物学中单位

以碱基(对)数或者测序read数统计测序

数据量的大小

Ø b:表示base pairs,即碱基(对)

Ø M:Million,百万

Ø 1Mb = 10^6b,即10^6个b

Ø 1Gb = 10^3Mb,即10^9个碱基

###计算机中物理存储单位

Gb:Gigabyte,简写为G,是一种十进制

的信息计量单位,表述数据物理存储

Ø b:byte,表示字节数

Ø 1Mb = 1024kb

Ø 1Gb = 1024Mb

数据质控-Per base sequence quality

这幅图展示的是fq文件中每一个位置上的所有read的碱基质量值的一个箱式图。

比如,我的fq有25000个read,第一个位置上的base(碱基)就有25000个质量值,这个值画成第一个箱子,依此往后推

数据质控-MultiQC报告

使用MultiQc整合FastQC结果 https://multiqc.info/

过滤低质量

数据过滤-过滤条件

测序得到的原始序列含有接头序列或低质量序列,为了保证信息分析的准确性,

需要对原始数据进行质量控制,得到高质量序列(即Clean Reads),原始序列质量控制的标准为:

(1) 去除含接头的reads;

(2) 过滤去除低质量值数据,确保数据质量;

(3) 去除含有N(无法确定碱基信息)的比例大于5%的reads;

数据过滤-trim_galore

trim_galore官网:http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/

数据过滤-trim_galore常用参数
数据过滤-trim_galore的命令
任务管理

1.任务投递:

前台运行:直接运行

后台运行:nohup,&

前台转后台/后台转前台:bg/fg

2.终止任务:

暂停:Ctrl+Z

终止:Ctrl+Ckill

3.任务查看:

top

ps fxww

jobs

如何检查脚本内容:echo命令
代码语言:javascript
复制
cat ID | while read id
do
echo “ trim_galore --phred33 -q 20 --length 36 --max_n 3 --stringency 3 --fastqc --paired -o ${cleandata} ${rawdata}/${id}_1.fastq.gz ${rawdata}/${id}_2.fastq.gz “ 
done

过滤后的cleantada带有fq结尾的文件:

SRR1039510_1_val_1.fq.gz

SRR1039510_2_val_2.fq.gz

fastqc报告结果,带有fastqc结尾的文件

SRR1039510_1_val_1_fastqc.html

SRR1039510_1_val_1_fastqc.zip

SRR1039510_2_val_2_fastqc.html

SRR1039510_2_val_2_fastqc.zip

trim_galore运行过滤参数等细节文件,带有

trimming_report关键字。

SRR1039510_1.fastq.gz_trimming_report.txt

SRR1039510_2.fastq.gz_trimming_report.txt

数据过滤-fastp

小技巧:\的妙用

表示手动换行,命令较长时,可以手动换行让命令可读性更高,更美观。

Note:\的后面不能有空格

过滤后的cleandata,fq结尾:

SRR1039510_1.fastp.fq.gz

SRR1039510_2.fastp.fq.gz

过滤后的报告,html结尾:

SRR1039510.html

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据质量评估
    • 数据质控-fastqc的常用参数
      • 数据质控-fastqc运行
        • 方式一:直接运行(霸占你的控制台,霸占你的时间!)
        • 方式二:在命令前后加上nohup &(适用于比较简单的命令,快捷方便!)
        • 方式三:将命令写入sh脚本,使用nohup &运行sh脚本(适用于比较长和复杂的命令)
      • 数据质控-Basic Statistics
        • 数据量统计方式
          • 生物学中单位
        • 数据质控-Per base sequence quality
          • 数据质控-MultiQC报告
            • 过滤低质量
              • 数据过滤-过滤条件
              • 数据过滤-trim_galore
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档