前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >从ncbi下载sra数据的几种种方式

从ncbi下载sra数据的几种种方式

作者头像
Y大宽
发布2019-06-24 10:47:31
4K0
发布2019-06-24 10:47:31
举报
文章被收录于专栏:Y大宽Y大宽

为了加快速度先下载aspera并添加环境变量,具体看以前的内容

下载sra toolkit加环境变量

下载EDirect

用yeast的几个数据说明

1. 直接用run id

代码语言:javascript
复制
prefetch SRR1553610

2. 写入文件下载

代码语言:javascript
复制
echo SRR1553608 > sra.ids
echo SRR1553605 >> sra.ids
prefetch --option-file sra.ids

3 利用sed和bash

代码语言:javascript
复制
cat sra.ids|sed 's/SRR/fastq-dump --split-files SRR/'|bash

4 通过EDirect获取runinfo

要下载EDirect,具体步骤EDirect在linux和mac下的安装

代码语言:javascript
复制
esearch -db sra -query PRJNA257197  | efetch -format runinfo > runinfo.txt
代码语言:javascript
复制
$ cat runinfo.txt |head
Run,ReleaseDate,LoadDate,spots,bases,spots_with_mates,avgLength,size_MB,AssemblyName,download_path,Experiment,LibraryName,LibraryStrategy,LibrarySelection,LibrarySource,LibraryLayout,InsertSize,InsertDev,Platform,Model,SRAStudy,BioProject,Study_Pubmed_id,ProjectID,Sample,BioSample,SampleType,TaxID,ScientificName,SampleName,g1k_pop_code,source,g1k_analysis_group,Subject_ID,Sex,Disease,Tumor,Affection_Status,Analyte_Type,Histological_Type,Body_Site,CenterName,Submission,dbgap_study_accession,Consent,RunHash,ReadHash
SRR1972917,2015-04-14 13:59:24,2015-04-14 13:56:53,4377867,884329134,4377867,202,486,,https://sra-download.ncbi.nlm.nih.gov/traces/sra27/SRR/001926/SRR1972917,SRX994194,G5723.1.l1,RNA-Seq,cDNA,TRANSCRIPTOMIC,PAIRED,0,0,ILLUMINA,Illumina HiSeq 2500,SRP045416,PRJNA257197,2,257197,SRS908519,SAMN03254208,simple,186538,Zaire ebolavirus,G5723.1,,,,,,,no,,,,,BI,SRA178666,,public,4C15DC4E43EA2DD6DA211DCDB3E400F0,94BEB800D624CB20C04DD09D0C56BC86
SRR1972918,2015-04-14 13:58:26,2015-04-14 13:56:34,3856384,778989568,3856384,202,457,,https://sra-download.ncbi.nlm.nih.gov/traces/sra27/SRR/001926/SRR1972918,SRX994195,G5731.1.l1,RNA-Seq,cDNA,TRANSCRIPTOMIC,PAIRED,0,0,ILLUMINA,Illumina HiSeq 2500,SRP045416,PRJNA257197,2,257197,SRS908518,SAMN03254209,simple,186538,Zaire ebolavirus,G5731.1,,,,,,,no,,,,,BI,SRA178666,,public,63AE692146061962D2BA889EAF5A86CA,F910CC0D2C1F588AD0EB8C1DDE93AD14
......

所以需要提取,分隔的第一列,并且grepSRR开头的数据

代码语言:javascript
复制
cat runinfo.txt | cut -f 1 -d ","|grep SRR > sra.ids

然后下载即可,注意不要下载,这只是示例,因为里面包含大量数据,如果想下载看下空间du -hs ~/ncbi

代码语言:javascript
复制
prefetch --option-file sra.ids

5 继续bash

代码语言:javascript
复制
cat sra.ids|sed 's/SRR/fastq-dump --split-files SRR/' |bash

这样就得到了PRJNA25719的所有测序数据

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.06.23 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 直接用run id
  • 2. 写入文件下载
  • 3 利用sed和bash
  • 4 通过EDirect获取runinfo
  • 5 继续bash
相关产品与服务
腾讯云 BI
腾讯云 BI(Business Intelligence,BI)提供从数据源接入、数据建模到数据可视化分析全流程的BI能力,帮助经营者快速获取决策数据依据。系统采用敏捷自助式设计,使用者仅需通过简单拖拽即可完成原本复杂的报表开发过程,并支持报表的分享、推送等企业协作场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档