前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >fastq文件格式解读

fastq文件格式解读

原创
作者头像
ruochen
发布2021-12-04 09:57:13
1.8K0
发布2021-12-04 09:57:13
举报
文章被收录于专栏:若尘的技术专栏

二代测序返回的结果有时候一个物种的测序结果会返回来两个双端的fastp。

r1.fq.gz l1.fq.gz

r2.fq.gz l2.fq.gz

测序数据内容实际上一块的,只是传输时分成两个部分。

我们使用时习惯将其合并为一个双端文件。

原理

原理就是将两个文件内容依次输入到一个新的文件内,你也可以将第二个文件内容追加到第一个文件后面。

zcat命令可以不用解压缩来实现内容输出。

zcat r1.fq.gz >>r.fq.gz

zcat r2.fq.gz >>r.fq.gz

实践

实践数据如下

代码语言:txt
复制
  2994738374 Mar  5 18:46 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz'
代码语言:txt
复制
  8571667328 Mar  5 19:54  FDSW202295954-1r_L1_1_clean.rd.fq.gz
代码语言:txt
复制
  3175088028 Mar  5 19:38 'FDSW202295954-1R_L1_2(1)_clean.rd.fq.gz'
代码语言:txt
复制
  8926160282 Mar  5 19:20  FDSW202295954-1r_L1_2_clean.rd.fq.gz

zcat FDSW202295954-1r_L1_1_clean.rd.fq.gz >> FDSW202295954-1r_L1_1.clean.fq

tail -n 4 FDSW202295954-1r_L1_1.clean.fq

可以通过tail命令查看最后一条的read信息。

第一个fq文件的最后一个read

代码语言:txt
复制
@A01050:296:HK55GDSXY:1:2678:17309:36323 1:N:0:TCCTTGAG+CACGTACT
代码语言:txt
复制
ATTTCATAATTTAATATTAACTTTAAAGAATAATTTTTCAAAAAAAAAAAAATTTTTTTAATTACCTTGTGTGACAATATTTGATCGATTGTAATGGGATAACTTTAAATTAACTTCAAAAGAGGGGTTACGCTTAATCTGAATAGGTAA
代码语言:txt
复制
+
代码语言:txt
复制
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFF:FF:FFFFFFFFF:FFFFFF:FF:FFFFFF:,FFFFF::FFF:FFFFFF:FFFFFFF::FFFFF:FFF

接下来接上下一个L文件

`zcat 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz' >>

FDSW202295954-1r_L1_1.clean.fq`

拼接完成以后我们检查一下,首先用less查看一下第二个文件的第一条read信息。

less 'FDSW202295954-1R_L1_1(1)_clean.rd.fq.gz'

第二个fq文件的第一个read

代码语言:txt
复制
@A01050:298:HK577DSXY:1:1101:2899:1000 1:N:0:TCCTTGAG+CACGTACT
代码语言:txt
复制
AATGGCCACGAGCACTGGAACTCCAGCGACGGTTAATTCCGACCAATCAATTCAGGTAAAACTTTTGATTTTTGAGGAAGGGGACAACATCGAGATTTTTTTCTTTAATTCGATACGTTGATAAAGATAAAAAAATGGGAAGATTGGAGA
代码语言:txt
复制
+
代码语言:txt
复制
F:FF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:F:FFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFF:FFFFFF:FFFFFFFFFF,FFFFFFFFFF:F:F:FFFFFFFFF
代码语言:txt
复制
@A01050:298:HK577DSXY:1:1101:3025:1000 1:N:0:TCCTTGAG+CACGTACT

查看第二个fq文件第一个read的身份信息找其前后10行的内容。

`grep -10 '@A01050:298:HK577DSXY:1:1101:2899:1000 1:N:0:TCCTTGAG+CACGTACT'

FDSW202295954-1r_L1_1.clean.fq`

代码语言:txt
复制
+
代码语言:txt
复制
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
代码语言:txt
复制
@A01050:296:HK55GDSXY:1:2678:16694:36323 1:N:0:TCCTTGAG+CACGTACT
代码语言:txt
复制
AGTACTACCGGGCAAATCGACAATATGGGAACATCAACTCTCACGAATGGTGGAATGGATCATGCCTCAATCCTTTTTCAAAGCGTTATTTCGGGTGATAACACTCCCGGGACTGATCTCTTAACGCCTCAGAGACAGGTCTTAAATAGC
代码语言:txt
复制
+
代码语言:txt
复制
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF
代码语言:txt
复制
@A01050:296:HK55GDSXY:1:2678:17309:36323 1:N:0:TCCTTGAG+CACGTACT #第一个fq的最后一个read
代码语言:txt
复制
ATTTCATAATTTAATATTAACTTTAAAGAATAATTTTTCAAAAAAAAAAAAATTTTTTTAATTACCTTGTGTGACAATATTTGATCGATTGTAATGGGATAACTTTAAATTAACTTCAAAAGAGGGGTTACGCTTAATCTGAATAGGTAA
代码语言:txt
复制
+
代码语言:txt
复制
FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFF:FF:FFFFFFFFF:FFFFFF:FF:FFFFFF:,FFFFF::FFF:FFFFFF:FFFFFFF::FFFFF:FFF
代码语言:txt
复制
@A01050:298:HK577DSXY:1:1101:2899:1000  1:N:0:TCCTTGAG+CACGTACT #第二个fq的第一个read
代码语言:txt
复制
AATGGCCACGAGCACTGGAACTCCAGCGACGGTTAATTCCGACCAATCAATTCAGGTAAAACTTTTGATTTTTGAGGAAGGGGACAACATCGAGATTTTTTTCTTTAATTCGATACGTTGATAAAGATAAAAAAATGGGAAGATTGGAGA
代码语言:txt
复制
+
代码语言:txt
复制
F:FF:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:F:FFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFF:FFFFFF:FFFFFFFFFF,FFFFFFFFFF:F:F:FFFFFFFFF
代码语言:txt
复制
@A01050:298:HK577DSXY:1:1101:3025:1000 1:N:0:TCCTTGAG+CACGTACT
代码语言:txt
复制
AGAGAGGGAGGGGGTAAAAAGTTTTTGATGTTTTGGGTGGTAAGTAAGCCCGAATATCGGATAACCCTAAATCCCCATTCTATTACACCTATGGTTCTAATATCTTTCCGAGATCAAAATTCCAAGATTAATGTGCCATATGACATAACT
代码语言:txt
复制
+
代码语言:txt
复制
:FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF,FFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFF:FFFFFFFFFFFFFFFFFFFFFF:FFFFF
代码语言:txt
复制
@A01050:298:HK577DSXY:1:1101:4092:1000 1:N:0:TCCTTGAG+CACGTACT
代码语言:txt
复制
CCTCCCCCCTTTCCCATTTTTTTTTTATTTTAAAATTTTTCAGGGTTGTAACCTCATTTTTAAGTCCCTATACCGGGTTGTGGGGTCATTCCTCTGTCTCCCTACAGGTTTGTGGCGTGTCCGTCCCCCGCCCCCCAGGACCCATGTGGT
代码语言:txt
复制
+

第一个fq文件的最后一个read与第二个fq文件的第一个read衔接,也没有缺失换行或者多换行符,成功完成了数据合并。

打包成tar.gz格式压缩包

tar -zcvf 压缩后文件名.tar.gz 待压缩文件名

解压tar.gz格式压缩包

tar zxvf 待解压文件名.tar.gz

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
作者已关闭评论
0 条评论
热度
最新
推荐阅读
目录
  • 原理
  • 实践
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档