fastq_pair过滤不成对的reads

现在NGS测序已经很便宜了,单测序一直以来都是按base数收费,导致目前Single End模式的测序提供商已很少出现,目前市场上大多都已是Pair End测序模式。

我们再来复习一下(illumina的文库结构吧)[

http://seqanswers.com/forums/showthread.php?t=198&highlight=GAIIx] 。在RNA-seq,miRNA-seq建库过程中,通常会有Reads测通,测到可能的3’end adapter序列,在这本人推荐(flexbar)[https://github.com/seqan/flexbar] 和(trimmomatic)[http://www.usadellab.org/cms/?page=trimmomatic] 两款软件。

然而有的时候,比如当我们用的是fastx-toolkit的fastx_clipper对read1 read2分别截取adapter处理的时候,有的read1/read2其中一条因为截取adapter序列之后 太短,或者这条序列的质量值过低而被整条过滤掉了,而另一条保留了。这种情况read1和read2的read 那么就不一一对应了。这时候 我推荐github上一个好用的工具,fastq_pair(https://github.com/linsalrob/fastq-pair)。他能将read1和read2中read name能配对上的成对的输出到两个文件,不能匹配上的输出到另外的 单端未匹配文件中。例如下面的例子将输出test_R1.fastq.paired.fq,test_R2.fastq.paired.fq,test_R1.fastq.single.fq,test_R2.fastq.single.fq。这样你后面的bwa/bowtie/tophat2/hisat2等都可顺利比对而不会报错了

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180320G1Q24D00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券