前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >测序数据质量控制 [Quality control of sequencing data]

测序数据质量控制 [Quality control of sequencing data]

原创
作者头像
uniXiaolin
发布2023-07-19 13:30:02
3620
发布2023-07-19 13:30:02
举报
文章被收录于专栏:代码小菜鸟

基本信息 information

环境:

Ubuntu arrch64 GNU/Linux

软件版本号:

conda 23.5.2

trimmomatic (0.39)

bowtie2 (2.5.1)

使用trimmomatic进行数据质控 Data QC with trimmomatic

可以使用trimmomatic -h命令查看使用帮助,得到如下反馈。

代码语言:txt
复制
   PE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] [-validatePairs] [-basein <inputBase> | <inputFile1> <inputFile2>] [-baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>] <trimmer1>... or: 
代码语言:txt
复制
   SE [-version] [-threads <threads>] [-phred33|-phred64] [-trimlog <trimLogFile>] [-summary <statsSummaryFile>] [-quiet] <inputFile> <outputFile> <trimmer1>...

参数解读

PE表示 paired-end 数据的质量控制,SE也即single-end 数据。以下以PE为例。

  • -threads 使用的线程数。
  • -phred33-phred64 : 指定输入数据的质量编码方式。如果不指定,软件也会自动判断文件格式。phred33/64都是测序数据质量编码方式,用于描述测序数据中每个碱基的质量值。简单来说。illumina测序时,碱基结合产生的荧光数据被捕捉并绘制成荧光曲线。从荧光数据中可以识别碱基类别,但现实中波峰的形态可能发生模糊,并可能导致数据的失真。Phred就是用来评估这种错误率,Phred以 Q来表示,在测序文件中被编码、转换并储存为ASCII字符。
  • -trimlog <trimLogFile>: 指定日志文件,记录处理过程的详细信息和统计。
  • <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>是输出的质控后的 数据文件。
  • -summary <statsSummaryFile>: 指定输出统计摘要文件,记录处理结果的统计信息。
  • -quiet: 在处理过程中不输出冗余信息,保持安静模式。
  • -validatePairs: 对配对的数据进行验证,确保数据完整和一致性。
  • -basein <inputBase> | <inputFile1> <inputFile2>: 指定输入数据的文件名,可以输入两个单端文件或一对配对的文件。
  • -baseout <outputBase> | <outputFile1P> <outputFile1U> <outputFile2P> <outputFile2U>: 指定输出数据的文件名,baseout代表输出文件的基础名字。输出文件包括4个,包括处理后的配对和未配对数据各有2个文件,其中U代表unpaired,P代表paired。
  • <trimmer1>...: 这是 Trimmomatic 支持的各种处理步骤,可以使用一个或多个处理步骤,以下为常用的过滤步骤。 ① ILLUMINACLIP: 剪切适配序列,用于去除测序引物或适配序列。 ②LEADING: 去除序列开头低质量的碱基。 ③ TRAILING: 去除序列末尾低质量的碱基。 ④SLIDINGWINDOW: 滑动窗口截断,根据窗口内的平均质量分值去除序列。 ⑤ MINLEN: 设定最小序列长度,去除过短的序列。

使用Bowtie2 去除宿主序列 Removing host sequences with Bowtie2

可以使用bowtie2 -h命令查看使用帮助,得到如下反馈。

代码语言:txt
复制
bowtie2 [options]* -x <bt2-idx> {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>} [-S <sam>]

参数解读

  • -x <bt2-idx>:指定Bowtie2索引的路径和前缀,用于比对。
  • {-1 <m1> -2 <m2> | -U <r> | --interleaved <i> | -b <bam>}:这是关于输入序列数据的不同选项,根据数据的类型选择相应的输入方式:
    • -1 <m1> -2 <m2>:指定成对测序数据的路径,<m1><m2>分别表示两个文件的路径。
    • -U <r>:指定未成对(单端)测序数据的路径,<r>表示文件的路径。
    • --interleaved <i>:指定合并成对测序数据的路径,<i>表示文件的路径。
    • -b <bam>:指定输入已比对的BAM格式文件,<bam>表示文件的路径。
  • [-S <sam>]:用于指定输出比对结果的SAM格式文件路径,<sam>表示文件的路径。

SAM格式是一种文本格式,可读性较好,以纯文本形式存储比对结果。可以直接被查看和编辑,适合小规模的数据。缺点是文件较大,读写速度较慢,不适合处理大规模数据。BAM格式是一种二进制格式,是SAM格式的压缩版本,以二进制形式存储比对结果。BAM文件的读写速度较快,适合处理大规模数据。

好了,测序数据质量控制就写到这里,下次更新物种注释部分。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基本信息 information
  • 使用trimmomatic进行数据质控 Data QC with trimmomatic
    • 参数解读
    • 使用Bowtie2 去除宿主序列 Removing host sequences with Bowtie2
      • 参数解读
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档