(12)一些QC软件教程-生信菜鸟团博客2周年精选文章集

包括下面几个软件的用法,是我刚入门写的了,感兴趣的去我博客搜索看看,意义不大,我就复制粘贴那些内容了,我讲一点别的:

solexaQA 对测序数据进行简单过滤 RSeQC对 RNA-seq数据质控 NGS QC Toolkit 对测序reads进行简单过滤 fastqc对原始测序reads质控

但是QC的重要性!!!

如果没有充分理解你需要分析的数据,就贸然跑一大堆的软件,选择各种参数,这样意义不大!测序仪综述,了解测序原理。 我会在我的博客里面持续更贴把QC给整理清楚: 用sickle软件来对双端测序数据过滤低质量reads 用cutadapt软件来对双端测序数据去除接头 fastq定义; 要了解fastq格式:http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2847217/ https://en.wikipedia.org/wiki/FASTQ_format 如何做QC,为什么要QC,Quality trimming? Adapter removal? Contaminant filtering? NGS QC Toolkit:http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0030619 fastx_toolkit : http://hannonlab.cshl.edu/fastx_toolkit/commandline.html fastqc : SolexaQA/HTQC/http://bioinformatics-core-shared-training.github.io/cruk-bioinf-sschool/Day1/fastqc_sweave.pdf 需要用到的工具: http://hannonlab.cshl.edu/fastx_toolkit/commandline.html fastQC cutadapt 如果测序质量不合格,则需要: fastq_quality_filter -v -Q 64 -q 20 -p 75 -i sample.fastq -o sample_filtered.fastq 如果都是reads的前6个bp碱基有问题,则需要 fastx_trimmer -v -f 7 -l 36 -i sample_filtered.fastq -o sample_filtered_and_trimmed.fastq 如果混入了大量的接头,则需要! cutadapt -m 20 -e 0.1 -a GATCGGAAGAGCACACGTCTGAACTCCAGTCACACA sample2.fastq \ -o sample2--cutadapt.fastq 需要自己去查自己的接头是什么序列:https://github.com/csf-ngs/fastq ... ontaminant_list.txt 质控可视化: (A) Average quality score for each base position, (B) GC content distribution, (C) Average Phred quality score distribution, (D) Base composition and (E) read length distribution for both input (red) and HQ filtered (green) data. (F) Percentage of reads with different quality score ranges at each base position. 如果是特殊测序,质控需要加一些步骤 WES: RNA-seq: RSeQC或者RNA-SeQC,甚至还有质量控制联盟:Sequencing Quality Control Consortium http://bioinformatics.oxfordjournals.org/content/28/16/2184.short http://bioinformatics.oxfordjournals.org/content/28/11/1530.short http://www.nature.com/nbt/journal/v32/n9/abs/nbt.2957.html (http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE47792 值得研究) ChIP–seq: QC可以更复杂:raw data, alignment and variant calling /http://www.sciencedirect.com/science/article/pii/S0888754314000354 其它平台:PacBio http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3811116/ MinION nanopore sequencing :http://www.nature.com/articles/srep11996 http://www.nature.com/nbt/journal/v33/n3/abs/nbt.3103.html

如果是去除adapter,现在的软件非常多~最经典的就是Cutadapt,利用了 Semi-global sequence alignment can be performed using the Smith-Waterman algorithm [2] with minor revisions of the boundary condition as implemented in Cutadapt[3],一般我们打断的序列都是大于两倍的测序长度的,不管是pe150,还是PE250,都不会测到接头,但是打断毕竟是随机的,所以一些太小的片段,还是会测到接头的, 所以需要去除,尤其是microRNA,它的长度是20-24bp ( microRNA-MicroRNA(miRNA)是一类内生的、长度约20-24个核苷酸的小RNA,是发夹结构的约70-90个碱基大小的单链RNA前体经过Dicer酶加工后生成。),测序时候的长度肯定是大于这个长度的 所以肯定会测到3'端的adapter,如果测不到说明这个reads不是microRNA或者是受污染的. 还有很多其它工具 Fastx_clipper in the FastX-Toolkit (http://hannonlab.cshl.edu/fastx_toolkit/), SeqTrim (https://github.com/dariogf/SeqtrimNext) [7], TagCleaner[8], EA-Tools (http://code.google.com/p/ea-utils/). SeqPrep (https://github.com/jstjohn/SeqPrep) which focuses on paired-end (PE) reads; Flexbar[9], a flexible barcode demultiplexer that uses the Needleman-Wunsch algorithm [10] for pair-wise global sequence alignments, which has the same time complexity as that of Smith-Waterman algorithm; Trimmomatic (http://www.usadellab.org/cms/index.php?page=trimmomatic), which is a part of an integrated tool RobiNA[11]; Scythe (https://github.com/vsbuffalo/scythe), which uses a Naive Bayesian approach to classify contaminants in reads; TrimGalore (http://www.bioinformatics.babraham.ac.uk/projects/trim_galore/), which internally invokes Cutadapt with an extension to handle PE reads; AdapterRemoval[12], which is carefully tuned for trimming adapters from both single-end (SE) or PE reads; AlienTrimmer[13], which is based on k-mer decomposition for contaminant detection; and NextClip[14], which is dedicated to trimming adapters within Nextera LMP reads. 2014年出了一个skewer:http://bmcbioinformatics.biomedc ... 86/1471-2105-15-182

一.下载该软件

http://solexaqa.sourceforge.net/index.htm

下载解压开

现在已经把它的三个功能整合到一起啦

之前是分开的程序,我主要用它的两个perl 程序,我比较喜欢之前的版本,所以下面的讲解也是基于这两个perl程序。

这两

个主要是对reads进行最大子串的截取

二.准备数据。

就是我们测序得到的原始数据。

第一个就是质量控制,一般是以20为标准,当然你也可以自己设定,该软件质控的原理如下:

使用默认的参数值(defaults to P = 0.05, or equivalently, Q = 13)

基本上就是取符合阈值的最大子串。

二:命令使用很简单一般使用DynamicTrim与LengthSort.pl就可以了

for id in *fastq

do

echo $id

perl DynamicTrim.pl -454 $id

done

for id in *trimmed

do

echo $id

perl LengthSort.pl $id

done

首先使用DynamicTrim.pl程序,非常耗时间

几个小时完毕之后

查看,产出文件如下

可以看到丢弃的不多,也就三五百M的

简单查看丢弃的,都是短的。

perl -lne ‘{print length if $.%4==2}’ SRR1793918.fastq.trimmed.discard |head

用这个脚本查看,可知好像都是短于25个碱基的被舍弃掉了,这个参数可以调整的。

接下来就可以用这些数据进行数据分析了

原文发布于微信公众号 - 生信技能树(biotrainee)

原文发表时间:2017-01-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏生信技能树

你以为的可能不是你以为的

最近生信技能树管理员小朋友XZG跟我炫耀他植物的简化基因组的gvcf模式,两百个测序数据,我一直没用过这个gvcf功能,因为的确没有需求。癌症研究,关注的主要是...

914
来自专栏青玉伏案

窥探Swift编程之别样的HelloWorld

  从今天就开始陆陆续续的发布一些有关Swift语言的东西,虽然目前在公司项目开发中Objective-C还是iOS开发的主力军,但是在不久的将来Swift将会...

1808
来自专栏顶级程序员

不多掏钱 让数据库快200倍,Really?!

这年头几乎每个人都在这样那样抱怨性能。数据库管理员和程序员不断发现自己处于这种情形:服务器遇到了瓶颈,或者查询起来没完没了,这种情况并不少见。这种郁闷对我们所...

34611
来自专栏Linuxer的专栏

宋宝华:火焰图 全局视野的 Linux 性能剖析

火焰图的火焰首先来自于根,然后以火苗的形式往上面窜。可以把从靠近地面的根到顶上的每个火苗,想想成一个调用栈。由于火苗有很多根,这正好也和现实生活中程序的执行逻辑...

1550
来自专栏数据小魔方

R语言可视化——ggplot携手plotly,让你的图表灵动起来!

这段时间一直在研究ggplot2这个神奇的可视化利器,可是ggplot2纵然所向披靡,唯独无法呈现动态效果! 最近发现R语言的官方CRAN中有一款名叫plotl...

3356
来自专栏大数据挖掘DT机器学习

【实战帖】使用Python分析社交网络数据

目录 数据抓取 一、直接抓取数据 二、模拟浏览器抓取数据 三、基于API接口抓取数据 数据预处理 可视化 数据分析 扩散深度 扩散速度 空间分布 节点属性 网...

5378
来自专栏生信技能树

Variant 分析阶段小结2- 变异寻找碎碎念

写在前面:『思考问题的熊』专栏上次更新还要追溯到4月19号的 Variant 分析阶段小结1-基础碎碎念,过去接近一个月的时间里我分别经历了两次长途出差和电脑无...

1284
来自专栏生信技能树

使用R语言的cgdsr包获取TCGA数据

前些天被TCGA的终结新闻刷屏,但是一直比较忙,还没来得及仔细研读,但是笔记本躺着的一些TCGA教程快发霉了,借此契机好好整理一下吧,预计二十篇左右的笔记

1303
来自专栏生信宝典

高通量数据分析必备|基因组浏览器使用介绍 - 3

前面两篇文章(高通量数据分析必备|基因组浏览器使用介绍 - 1和高通量数据分析必备|基因组浏览器使用介绍 - 2)介绍了EPGG的基本使用、各部分特征、Trac...

985
来自专栏FSociety

Python实现「碟中谍」5W条评论可视化

本篇文章会针对用户在猫眼上对于「碟中谍6」的评论进行一个可视化分析,我们总共采集了44872条用户评论,文章内容包括:

1103

扫码关注云+社区