专栏首页Y大宽从ncbi下载sra数据的几种种方式

从ncbi下载sra数据的几种种方式

为了加快速度先下载aspera并添加环境变量,具体看以前的内容 下载sra toolkit加环境变量 下载EDirect 用yeast的几个数据说明

1. 直接用run id

prefetch SRR1553610

2. 写入文件下载

echo SRR1553608 > sra.ids
echo SRR1553605 >> sra.ids
prefetch --option-file sra.ids

3 利用sed和bash

cat sra.ids|sed 's/SRR/fastq-dump --split-files SRR/'|bash

4 通过EDirect获取runinfo

要下载EDirect,具体步骤EDirect在linux和mac下的安装

esearch -db sra -query PRJNA257197  | efetch -format runinfo > runinfo.txt
$ cat runinfo.txt |head
Run,ReleaseDate,LoadDate,spots,bases,spots_with_mates,avgLength,size_MB,AssemblyName,download_path,Experiment,LibraryName,LibraryStrategy,LibrarySelection,LibrarySource,LibraryLayout,InsertSize,InsertDev,Platform,Model,SRAStudy,BioProject,Study_Pubmed_id,ProjectID,Sample,BioSample,SampleType,TaxID,ScientificName,SampleName,g1k_pop_code,source,g1k_analysis_group,Subject_ID,Sex,Disease,Tumor,Affection_Status,Analyte_Type,Histological_Type,Body_Site,CenterName,Submission,dbgap_study_accession,Consent,RunHash,ReadHash
SRR1972917,2015-04-14 13:59:24,2015-04-14 13:56:53,4377867,884329134,4377867,202,486,,https://sra-download.ncbi.nlm.nih.gov/traces/sra27/SRR/001926/SRR1972917,SRX994194,G5723.1.l1,RNA-Seq,cDNA,TRANSCRIPTOMIC,PAIRED,0,0,ILLUMINA,Illumina HiSeq 2500,SRP045416,PRJNA257197,2,257197,SRS908519,SAMN03254208,simple,186538,Zaire ebolavirus,G5723.1,,,,,,,no,,,,,BI,SRA178666,,public,4C15DC4E43EA2DD6DA211DCDB3E400F0,94BEB800D624CB20C04DD09D0C56BC86
SRR1972918,2015-04-14 13:58:26,2015-04-14 13:56:34,3856384,778989568,3856384,202,457,,https://sra-download.ncbi.nlm.nih.gov/traces/sra27/SRR/001926/SRR1972918,SRX994195,G5731.1.l1,RNA-Seq,cDNA,TRANSCRIPTOMIC,PAIRED,0,0,ILLUMINA,Illumina HiSeq 2500,SRP045416,PRJNA257197,2,257197,SRS908518,SAMN03254209,simple,186538,Zaire ebolavirus,G5731.1,,,,,,,no,,,,,BI,SRA178666,,public,63AE692146061962D2BA889EAF5A86CA,F910CC0D2C1F588AD0EB8C1DDE93AD14
......

所以需要提取,分隔的第一列,并且grepSRR开头的数据

cat runinfo.txt | cut -f 1 -d ","|grep SRR > sra.ids

然后下载即可,注意不要下载,这只是示例,因为里面包含大量数据,如果想下载看下空间du -hs ~/ncbi

prefetch --option-file sra.ids

5 继续bash

cat sra.ids|sed 's/SRR/fastq-dump --split-files SRR/' |bash

这样就得到了PRJNA25719的所有测序数据

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何在ubuntu上安装virtualbox的driver module vboxdrv

    干净的ubuntu安装完毕之后是没有vboxdrv这个driver module的。

    Jerry Wang
  • Java NIO-11.管道

    Java NIO管道(Pipe)是两个进程间的单向连接。管道有一个源通道和一个sink通道,往sink通道中写数据,数据就能从source通道中读取。

    悠扬前奏
  • 如何处理VirtualBox启动错误消息:The vboxdrv kernel module is not loaded

    Starting local Kubernetes v1.10.0 cluster…

    Jerry Wang
  • 教你咋用crontab

    通过crontab命令,我们可以在固定的间隔时间执行指定的系统指令或shell script脚本。时间间隔的单位可以是分钟、小时、日、月、周及以上的任意组合。

    用户5521279
  • 最简单的教程:在Ubuntu操作系统里安装Docker

    版权声明:本文为博主汪子熙原创文章,未经博主允许不得转载。 https://jerry.bl...

    Jerry Wang
  • Ansible批量执行shell脚本,检查服务器的磁盘使用情况

    使用ansible的shell命令可以执行shell脚本以及命令(包含管道),下面来看看怎么执行shell脚本。

    Devops海洋的渔夫
  • Docker和宿主机操作系统文件目录互相隔离的实现原理

    我们知道在Docker容器里是无法访问到宿主操作系统的文件目录的,但这种隔离是怎么实现的呢?

    Jerry Wang
  • Ubuntu修改默认sh为bash

    现在的Ubuntu版本默认sh都是使用的dash,用起来实在是别扭,所以找了一下,发现可以通过设置,修改为原来的bash。

    kongxx
  • 如何给VirtualBox虚拟机的ubuntu LVM分区扩容

    我在VirtualBox安装的ubuntu里安装Cloud Foundry时遇到错误信息,磁盘空间不够了:

    Jerry Wang
  • 常用Crontab,就问你湿过鞋没?

    前段时间写了一个shell脚本,用来监控线上服务器连接数是否超过阈值,超过阈值后,会自动发短信报警。脚本逻辑主要为:

    用户5521279

扫码关注云+社区

领取腾讯云代金券