前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >aspera下载真的好烦啊

aspera下载真的好烦啊

作者头像
生信技能树
发布2022-07-26 10:21:28
1.9K0
发布2022-07-26 10:21:28
举报
文章被收录于专栏:生信技能树

从公共数据库下载单细胞原始测序相关文件,然后正常走cellranger的定量流程即可,代码我已经是多次分享了。参考:

差不多几个小时就可以完成全部的样品的cellranger的定量流程,但是问题往往是出在下载上面。虽然有aspera下载加速措施,但是每次下载至少失败一半!

比如第一次下载,得到的fastq文件如下所示:

代码语言:javascript
复制
$ ls -lh *gz|cut -d" " -f 5-
 17G 6月  24 20:11 SRR15037124_1.fastq.gz
4.2G 6月  24 20:55 SRR15037124_2.fastq.gz
 19G 6月  24 22:05 SRR15037125_1.fastq.gz
4.4G 6月  24 22:33 SRR15037125_2.fastq.gz
5.0G 6月  24 23:31 SRR15037126_1.fastq.gz
3.0G 6月  25 00:00 SRR15037126_2.fastq.gz
 19G 6月  25 01:07 SRR15037127_1.fastq.gz
1.1G 6月  25 01:14 SRR15037127_2.fastq.gz
 18G 6月  25 02:50 SRR15037134_1.fastq.gz
 15G 6月  25 02:58 SRR15037134_2.fastq.gz
 26G 6月  25 03:12 SRR15037145_1.fastq.gz
 22G 6月  25 03:23 SRR15037145_2.fastq.gz
 19G 6月  25 03:32 SRR15037156_1.fastq.gz
 15G 6月  25 03:49 SRR15037156_2.fastq.gz
 16G 6月  25 03:59 SRR15037157_1.fastq.gz
 12G 6月  25 04:05 SRR15037157_2.fastq.gz

可以看到,下载的速度还不错,反正是晚上提交命令,第二天早上就搞定了,但是看文件大小,就觉得不正常,因为绝大部分样品都是1和2差不多大小,都是20G附近,那些才1~2G的文件肯定是有问题。看了看下载的日志:

代码语言:javascript
复制

Session Stop  (Error: Session data transfer timeout (server), Session data transfer timeout)
Completed: 16764756K bytes transferred in 547 seconds
 (250944K bits/sec), in 1 file.
Partial Completion: 12435230K bytes transferred in 394 seconds
 (258409K bits/sec), in 1 file; 1 file failed.

Session Stop  (Error: Session data transfer timeout)

这个时候,就需要返工了,检查哪些fq文件下载失败,需要去ENA数据库页面获取更多信息:https://www.ebi.ac.uk/ena/browser/view/PRJNA743579?show=reads

去ENA数据库页面获取更多信息

制作了md5文件:

代码语言:javascript
复制
aee4a4bbc932c14bf2fa5ff7b43d5252 SRR15037124_1.fastq.gz
7e3f9fd79186d0b2e3500cf60b8857ac SRR15037124_2.fastq.gz
8bcaca9aecb4eed42e46c06944f08071 SRR15037125_1.fastq.gz
f56ffd4495731389e5fa29208e5327c6 SRR15037125_2.fastq.gz
d9905c88f81608ac49aede336c46ff5b SRR15037126_1.fastq.gz
403351a91c377fb61e5611f814b0f0ff SRR15037126_2.fastq.gz
192097d06fe9537764f6181e306a7a59 SRR15037127_1.fastq.gz
1721a290f9f66af76bdc9833c5f9a5f6 SRR15037127_2.fastq.gz
59309babe463f2a820efe574d9a1d3c7 SRR15037134_1.fastq.gz
0651661433af8001a14d5987e4d79f34 SRR15037134_2.fastq.gz
80e4697bee640fb8b9671975f15070de SRR15037145_1.fastq.gz
20e6d58da684afb141bede2b4ecd92eb SRR15037145_2.fastq.gz
e5285a62b7560972badce22353711cb4 SRR15037156_1.fastq.gz
6d7c9f94adad31e21e4b8cd8a6f899c0 SRR15037156_2.fastq.gz
524157d095a7f9c6ebe3c50946e31866 SRR15037157_1.fastq.gz
8c5ae927b825d696eb93ca2c18e37f99 SRR15037157_2.fastq.gz

然后简单的检验了一下,发现确实失败了一部分:

代码语言:javascript
复制
SRR15037124_1.fastq.gz: OK
SRR15037124_2.fastq.gz: FAILED
SRR15037125_1.fastq.gz: OK
SRR15037125_2.fastq.gz: FAILED
SRR15037126_1.fastq.gz: FAILED
SRR15037126_2.fastq.gz: FAILED
SRR15037127_1.fastq.gz: OK
SRR15037127_2.fastq.gz: FAILED
SRR15037134_1.fastq.gz: OK
SRR15037134_2.fastq.gz: OK
SRR15037145_1.fastq.gz: OK
SRR15037145_2.fastq.gz: OK
SRR15037156_1.fastq.gz: OK
SRR15037156_2.fastq.gz: FAILED
SRR15037157_1.fastq.gz: OK
SRR15037157_2.fastq.gz: FAILED
md5sum: WARNING: 7 computed checksums did NOT match

没办法,只能是把失败的fq文件重新制作成为了配置文件,继续下载。文本文件:fq.txt ,内容如下:

代码语言:javascript
复制
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/024/SRR15037124/SRR15037124_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/025/SRR15037125/SRR15037125_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/026/SRR15037126/SRR15037126_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/026/SRR15037126/SRR15037126_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/027/SRR15037127/SRR15037127_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/056/SRR15037156/SRR15037156_2.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR150/057/SRR15037157/SRR15037157_2.fastq.gz

继续使用脚本 step1-aspera.sh :

代码语言:javascript
复制
cat fq.txt |while read id
do
ascp -QT -l 300m -P33001  \
-i ~/miniconda3/envs/download/etc/asperaweb_id_dsa.openssh   \
era-fasp@$id  .
done
# nohup bash step1-aspera.sh 1>step1-aspera.log 2>&1 &

然后前面失败的文件这次就成功下载了。

怕的就是偶尔ENA数据库抽风,可能是下载很多次仍然会失败!

学徒作业

下载我这个教程里面 提到的PRJNA743579项目的数据后,走cellranger的定量流程,我们在单细胞天地多次分享过cellranger流程的笔记,大家可以自行前往学习,如下:

顺便走seurat流程进行单细胞降维聚类分群。这样的基础分析,也可以看基础10讲:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 学徒作业
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档