前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >统计测序数据reads数和碱基数的几种方法

统计测序数据reads数和碱基数的几种方法

作者头像
生信宝典
发布2022-01-18 20:56:11
2K0
发布2022-01-18 20:56:11
举报
文章被收录于专栏:生信宝典生信宝典

手动写一个FASTQ格式的测试数据

代码语言:javascript
复制
cat <<END >sample.fq
@ESX1
CAGGAGGAGTACGTGTTTTTTTTTTGCAGTACTGTACGGCGCAGTAC
+
FFFFFFFFFFFFFFEEFFFFFFFFFFFFFFFFFFFFFEEEFFFFFFF
@ESX2
CAGGAGGAGTACGTGTTTTATTTTTGCAGTACTGTACGGCGCAGTAC
+
FFFFFFFFFFFFFFEEFFFFFFFFFFFFFFFFFFFFFEEEFFFFFFF
@ESX3
CAGGAGGAGTACGTGTTTTTTTTTTGCAGTACTGTACGGCGCAGTAC
+
FFFFFFFFFFFFFFEEFFFFFFFFFFFFFFFFFFFFFEEEFFFFFFF
END

利用seqkit统计

更详细的介绍和安装见推文seqkit:序列梳理神器-统计、格式转换、长度筛选、质量值转换、翻译、反向互补、抽样、去重、滑窗、拆分等30项全能

可以同时统计单个或多个fastq文件,结果输出为表格形式

代码语言:javascript
复制
seqkit stat sample.fq
# 结果如下
# num_seq:总序列数
# sum_len: 总碱基数
file       format  type  num_seqs  sum_len  min_len  avg_len  max_len
sample.fq  FASTQ   DNA          3      141       47       47       47

# 统计多个文件
seqkit stat sample.fq sample.fq
file       format  type  num_seqs  sum_len  min_len  avg_len  max_len
sample.fq  FASTQ   DNA          3      141       47       47       47
sample.fq  FASTQ   DNA          3      141       47       47       47

# 统计多个压缩文件
seqkit stat *.fq.gz

用Linux命令统计

awk的介绍见常用和不太常用的awk命令

代码语言:javascript
复制
# 统计单个文件
# awk运算
# %取余数
# 为什么除以4,又除以1000000?cat sample.fq | awk 'BEGIN{OFS="\t"}{if(FNR%4==0) base+=length}END{print FNR/4/1000000 " million", base/10^9 "G";}'
# 3e-06 million 1.41e-07 G

# 统计多个文件
for i in *.fq; do 
  cat sample.fq | awk -v name=${i} 'BEGIN{OFS="\t"}{if(FNR%4==0) base+=length}END{print name, FNR/4/1000000 " million", base/10^9 " G";}'
done

# sample.fq       3e-06 million   1.41e-07 G

# 统计多个压缩文件
for i in *.fq.gz; do 
  zcat sample.fq.gz | awk -v name=${i} 'BEGIN{OFS="\t"}{if(FNR%4==0) base+=length}END{print name, FNR/4/1000000 " million", base/10^9 " G";}'
done
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-08-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信宝典 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 手动写一个FASTQ格式的测试数据
  • 利用seqkit统计
  • 用Linux命令统计
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档