五一假期收假了……也要收收心呀!困扰我数日的原始数据问题终于解决啦!可以继续学习转录组数据的分析了!
感谢好心人出手相助分享原始数据!最后我是用mv直接移动文件位置实现的。
1.统计SRR1039510_1.fastq.gz文件中共有多少条reads?25000
NR表示行号 %符号表示取余数
print默认打印整行
高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,叫read,它们是原始数据
2.输出SRR1039510_1.fastq.gz文件中所有的序列ID(即第一行)
序列ID是唯一的
zless SRR1039510_1.fastq.gz | grep '^@SRR' |less -SN
zless SRR1039510_1.fastq.gz | paste - - - - |cut -f 1 |less -SN
zless SRR1039510_1.fastq.gz |awk '{if(NR%4==1){print}}' |less -SN
3.输出SRR1039510_1.fastq.gz文件中所有的序列(即第二行)
所有序列的ID是唯一的,但是测序得到的序列(read)不是唯一的
测到的序列除了ATGC之外,还有其他字母,例如:N(此处的荧光信号进行base calling时没有被识别出来,表示未知)
在25000条序列中有110条含有N
4.统计SRR1039510_1.fastq.gz碱基总数 1575000
使用wc -c统计字节数时换行符也被计算在内!
一个字符=一个字节?与编码语言有关,推荐使用wc -m!
使用tr命令删去所有的换行符
5.分别使用reads和base碱基数描述SRR1039510样本测了多少数据量
区分数据量与文件大小
每个样本由read1和read2组成
reads数一共有25000*2=50000reas/2500 pair reads
base碱基数原始样本可直接*2
数据过滤之后read1中的碱基序列和read2碱基序列长度可能不同
ReadNum:注意是reads对总数还是reads总数
BaseNum(G):G:1*10^9(十亿个碱基)
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。