前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >SRA数据库的数据并不一定要在SRA数据库下载

SRA数据库的数据并不一定要在SRA数据库下载

作者头像
生信技能树
发布2019-10-25 03:35:14
1.6K0
发布2019-10-25 03:35:14
举报
文章被收录于专栏:生信技能树

1

导读

在GEO下载测序数据,首先要找到GSE号,然后找到SRR号,最后prefetch就0K了!

但是路走多了什么样的坑都容易遇到,比如下面这个:

2

任务

首先,我需要下载一个数据集SRP058243,我想这还不简单吗,直接就有就顺着思路去找到了每个样本的SRR号

一来就是prefetch, 结果就悲催了,满屏的下载失败。

3

探索一下失败原因

报错怎么办?肯定得搜索呀

经过搜索我就知道了,嘿嘿,原来我们用prefech下载的数据都在https://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/可以找到,但是我发现这里面的数据是没有我要下载的SRR,此时想起了,jimmy老师说的“敲命令不是随便乱敲的,它存在我们才写”,其实下载数据同样如此,你下载的数据的地方要有你的数据你才可以下载,数据都没有你下载个啥呢,虽然有的软件很方便像conda,prefetch,但我们同样需要对他们所做的事有所了解,这样才能避免报错的时候,一脸懵逼。

知道了是数据缺失了之后,菜鸟的我自觉得这是一个无法被解决的问题?数据都没了,我能做个啥啊,对吧。

4

求助老师

然后我就发邮件跟jimmy大神汇报这个问题,很快,他就发了我两个地址:SRP058243在DRA,ERA的位置。

5

继续探索

然后我也搜索了一下,这两个应该也是存放数据的地方类似于SRA, 找到地址了,接下来肯定是下载起来啦(大神一句话,菜鸟跑半年,这句话还是有道理的)

有链接地址,还想啥,wget啊,但是看到下面的网速可能你会崩溃

prefetch好像又不行,只剩下ascp啦,接下来就行自己上网搜索ascp如何实现ERA快速下载

一看网速还行,但是我不可能一个一个下吧,四十多个我得做四十多遍,四百多个我不就炸了

这时候jimmy老师经常强调的要善于观察url的规律涌上了心头,那我就复制几个看看

还真有规律,但是你让我用代码把他写出来,可能不太现实,但是笨人总有笨办法(毕竟是能把B站GEO代码,一个字一个字抄下来的傻逼,还怕这个),直接用excel做好,然后写个循环就可以坐等数据了。

6

结语

所以呢,这个问题说简单也简单,但是前提是你对这些数据库有足够的了解。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档