前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >fasterq快速转换sra文件到fastq测序数据

fasterq快速转换sra文件到fastq测序数据

作者头像
生信技能树
发布2019-08-26 16:42:35
3.9K0
发布2019-08-26 16:42:35
举报

SRA文件的解压主要是用sratools中的fastq,但是这个软件不能多线程运行,随着测序数据越来越大,fastq的解压速度可能成为整个流程的瓶颈(其实并不会:P,不过没有多线程就是不爽)。 不过sratools还有另一个软件fasterq,看名字就知道这个应该更快,那我们就测试一下吧!

多线程解压SRA文件

这个软件用起来跟fastq区别不大,主要区别在于 -e 这个指令,可以指定线程数。

这里使用 -e 16指定16线程运行。

fasterq-dump -e 16 --split-files -O ~/tmp SRR1039510.sra

运行结果:

spots read : 22,852,619 reads read : 45,705,238 reads written : 45,705,238

下面看一下成成的文件:已经解压成_1.fastq和 _2.fastq两个文件,大小都是6.1G。

ls ~/tmp -ltrh

与fastq的对比

time fastq-dump --split-files -O ~/tmp SRR1039510.sra

real 2m4.557s user 1m40.961s sys 0m9.731s

time fasterq-dump -e 16 --split-files -O ~/ SRR1039510.sra

real 1m4.481s user 1m30.515s sys 0m18.706s

可以看到,fasterq实际运行时间是1m4s,fastq是2m4s,确实快了不少,不过好像没有快个16倍,比心理预期要慢一点。实际运行过程中我们用top指令发现,尽管指定了16线程,但CPU占用率只是短暂地超过100%。大多数时间在70-80%,而fastq则稳定在95%以上。我猜测可能是文件拆分之类的过程限制了多线程的速度。

除此之外,fasterq没有 -gzip 和-bzip2指令,所以无法像fastq那样输出压缩格式的文件,占用存储空间会比较大。

常用参数

-O|--outdir 指定输出目录 -e|--threads 指定线程数,默认为6 -p|--progress 显示进度 -s|--split-spot 双端测序结果存储在1个文件 -S|--split-files 双端测序结果存储在2个文件 -3|--split-3 双端测序结果存储在3个文件 (第三个文件存放没有配对的read)

Reference

fasterq使用说明:

https://www.plob.org/article/14565.html https://www.plob.org/article/14565.html https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump https://www.biostars.org/p/176809/ https://vip.biotrainee.com/d/215-如何使用fastq-dump转换sra格式 https://www.biostars.org/p/251020/#251029 https://github.com/ncbi/sra-tools https://github.com/ncbi/sra-tools/wiki/HowTo:-fasterq-dump https://github.com/ncbi/sra-tools/wiki/Downloads https://www.biostars.org/p/91885/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 多线程解压SRA文件
  • 与fastq的对比
    • 常用参数
      • Reference
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档