前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >FASTQ数据格式介绍

FASTQ数据格式介绍

原创
作者头像
yurric
发布2023-10-19 16:02:06
4231
发布2023-10-19 16:02:06
举报
文章被收录于专栏:R语言&linuxR语言&linux

一、fastq数据格式

1.介绍

分号为分隔符

Q值与第四行数据储存的对应

Q+33 对应数据储存的字母对应的acsii值

2.实际例子

3.习题

1.统计reads_1.fq文件种共有多少条reads?

代码语言:javascript
复制
# 答案不只一种,看看你能用集中方法算出来
# NR表示行号
# %表示取余数
zless  SRR1039510_1.fastq.gz | grep "@SRR" -c
zless  SRR1039510_1.fastq.gz | grep '^@SRR' |wc -l
zless -S SRR1039510_1.fastq.gz | paste - - - - |wc -l
zless  SRR1039510_1.fastq.gz |wc -l | awk '{print $0/4}'
zless -S SRR1039510_1.fastq.gz |awk '{ if(NR%4==2) {print} }' |wc -l

# sed 版本 课后习题

wc -l 统计有多少行

代码语言:javascript
复制
##wc命令的功能为统计指定文件中的字节数、单词数、行数, 并将统计结果显示输出
 
##参数
 
#-c, --bytes打印字节数
#-m, --chars  打印字符数 
#-l, --lines  打印行数 
#-L, --max-line-length  打印最长行的长度
#-w, --words 打印单词数

2.输出reads_1.fq文件中所有的序列ID(即第一行)

代码语言:javascript
复制
zless  SRR1039510_1.fastq.gz | grep '^@SRR'  |less -S
zless  SRR1039510_1.fastq.gz | paste - - - - |cut -f 1 |less -S
zless -S SRR1039510_1.fastq.gz |awk '{if(NR%4==1){print}}' |less -S

3.输出SRR1039510_1.fastq.gz文件中所有的序列(即第二行)

代码语言:javascript
复制
zless  SRR1039510_1.fastq.gz | paste - - - - |cut -f 2 |less -S
zless -S SRR1039510_1.fastq.gz |awk '{if(NR%4==2){print}}' |less -S 

4.统计SRR1039510_1.fastq.gz碱基总数

代码语言:javascript
复制
# 简单版本
zless -S SRR1039510_1.fastq.gz |paste - - - - |cut -f 2 |tr -d '\n' |wc -m
zless -S SRR1039510_1.fastq.gz |paste - - - - |cut -f 2 |grep -o [ATCGN] |wc -l

# awk的高阶用法:BEGIN END模块
zless -S SRR1039510_1.fastq.gz |awk '{ if(NR%4==2){print} }' | awk 'BEGIN {num=0} {num=num+length($0)}  END{ print "num="num}'

第二行有空字符,会被计算到碱基数目中,所以要删掉\n

5.分别使用reads和base碱基数描述SRR1039510样本测了多少数据量

25000 pairs reads & base数目

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、fastq数据格式
    • 1.介绍
      • 2.实际例子
        • 3.习题
          • 1.统计reads_1.fq文件种共有多少条reads?
          • 2.输出reads_1.fq文件中所有的序列ID(即第一行)
          • 3.输出SRR1039510_1.fastq.gz文件中所有的序列(即第二行)
          • 4.统计SRR1039510_1.fastq.gz碱基总数
          • 5.分别使用reads和base碱基数描述SRR1039510样本测了多少数据量
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档