前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生信软件 | FastQC(质量控制,查看测序质量)

生信软件 | FastQC(质量控制,查看测序质量)

作者头像
白墨石
发布2021-01-13 11:43:07
2.1K0
发布2021-01-13 11:43:07
举报
文章被收录于专栏:生信情报站

生信软件 | FastQC

介绍
  • 高通量测序数据的高级质控工具
  • 输入FastQ,SAM,BAM文件,输出对测序数据评估的网页报告
安装

conda install fastqc

这里需要安装Conda (这是一款用于安装多数生物信息分析软件的管理软件,重要的是可以解决软件依赖问题) : Conda 安装使用图文详解

使用

fastqc -t 12 -o out_path sample1_1.fq sample1_2.fq

-o --outdir:输出路径 –extract:结果文件解压缩 –noextract:结果文件压缩 -f --format:输入文件格式.支持bam,sam,fastq文件格式 -t --threads:线程数 -c --contaminants:制定污染序列。文件格式 name[tab]sequence -a --adapters:指定接头序列。文件格式name[tab]sequence -k --kmers:指定kmers长度(2-10bp,默认7bp) -q --quiet: 安静模式

文档:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/

结果解读

完全正常(绿),略有异常(橙) )或异常(红)

  1. Basic Statistics (基础统计)
  1. Per base sequence quality
  • 这是 read length = 100 的scRNAseq数据,横轴为read位置,纵轴是quality。
  • quality = -10*log10§,p为测错的概率。
  • 根据quality给出质量结果:正常区间(28 - 40),警告区间(20-28),错误区间(0-20)。
  • 比如,当read的某一位置的p=0.01,quality=20,那么它就处于错误区间。
  1. Per tile sequence quality
  1. Per base quality scores
  • 横轴为quality,纵轴为reads计数。
  • 当峰值处于quality为0-20时,报错。
  1. Per sequence sequence content
  • 横轴为位置,纵轴为百分比
  • 正常测序数据为频率相近的四种碱基,无位置差异。表现在图上的话,四条线应该是平行且接近。
  • 当任意位置A/T与G/C相差大于10%报警告,大于20%报错
  1. Per base GC content
  • 横轴为GC含量,纵轴为read计数。红色为实际测得,蓝色为理论分布。
  • 如果曲线形状不符,代表文库污染
  • 偏离大于15%,报警告;大于30%,报错
  1. Per base N content
  • N 代表测序仪不能识别的碱基,横轴代表read位置,纵轴代表占比
  • 如果正常测序,红线应该是趋近与0的直线
  • 当任意位置N占比大于5%,报警告;大于20%,报错
  1. Sequence Length Distribution
  • reads 长度不一致报警告;reads长度为0是报错
  1. Sequence Duplication Levels
  • 横坐标为重复(duplication)的次数,纵坐标为reads的数目,以unique reads的总数作为100%
  • 比如,当unique reads数大约为10%时,有两个重复;正常测序开始较高,后续趋近0%
  1. Adapter Content
  • 横坐标为read位置,纵坐标为Adapter序列占比;如果fastqc默认参数会将所有的常见的Adapter都列出
  • 正常情况是趋于0的直线,也就是说序列两端Adapter已经去除干净;如果有Adapter,需要先用cutadapt去接头
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2017/11/07 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 生信软件 | FastQC
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档