前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >重生之加深对fastq数据的认识(练习题)

重生之加深对fastq数据的认识(练习题)

原创
作者头像
可乐同学与生信死磕到底
发布2024-05-07 11:38:13
840
发布2024-05-07 11:38:13
举报

五一假期收假了……也要收收心呀!困扰我数日的原始数据问题终于解决啦!可以继续学习转录组数据的分析了!

感谢好心人出手相助分享原始数据!最后我是用mv直接移动文件位置实现的。

1.统计SRR1039510_1.fastq.gz文件中共有多少条reads?25000

NR表示行号 %符号表示取余数

print默认打印整行

高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据

2.输出SRR1039510_1.fastq.gz文件中所有的序列ID(即第一行

序列ID是唯一的

代码语言:bash
复制
zless  SRR1039510_1.fastq.gz | grep '^@SRR'  |less -SN
zless  SRR1039510_1.fastq.gz | paste - - - - |cut -f 1 |less -SN
zless  SRR1039510_1.fastq.gz |awk '{if(NR%4==1){print}}' |less -SN

3.输出SRR1039510_1.fastq.gz文件中所有的序列(即第二行

所有序列的ID是唯一的,但是测序得到的序列(read)不是唯一的

测到的序列除了ATGC之外,还有其他字母,例如:N(此处的荧光信号进行base calling时没有被识别出来,表示未知)

在25000条序列中有110条含有N

4.统计SRR1039510_1.fastq.gz碱基总数 1575000

使用wc -c统计字节数时换行符也被计算在内!

一个字符=一个字节?与编码语言有关,推荐使用wc -m!

使用tr命令删去所有的换行符

5.分别使用readsbase碱基数描述SRR1039510样本测了多少数据量

区分数据量与文件大小

每个样本由read1和read2组成

reads数一共有25000*2=50000reas/2500 pair reads

base碱基数原始样本可直接*2

数据过滤之后read1中的碱基序列和read2碱基序列长度可能不同

ReadNum:注意是reads对总数还是reads总数

BaseNum(G):G:1*10^9(十亿个碱基)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档