前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >嘴对嘴的单细胞上游数据处理(从fastq开始).Day3检查文件完整性

嘴对嘴的单细胞上游数据处理(从fastq开始).Day3检查文件完整性

原创
作者头像
用户10455752
发布2024-07-07 17:26:37
1160
发布2024-07-07 17:26:37
举报
文章被收录于专栏:单细胞

由于kingfisher下载反复失败,我改用aspera下载fastq数据

代码语言:linux
复制
#创建环境
mamba create -n aspera
mamba activate  aspera
mamba install -c hcc -y aspera-cli
ascp -h
已经安装成功
已经安装成功

将ENA数据库上的aspera链接写入一个txt文件下以便下载脚本读取,下面我将以2个链接作为演示

代码语言:linux
复制
vim link.txt
#按i开始编辑
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR222/040/SRR22255740/SRR22255740_1.fastq.gz
fasp.sra.ebi.ac.uk:/vol1/fastq/SRR222/040/SRR22255740/SRR22255740_2.fastq.gz
#输入链接后按esc然后输入   :wq(冒号和字母都要输入)退出并保存

接下来写一个批量下载的脚本

代码语言:linux
复制
vim download.sh

cat link.txt | while read id 
do
ascp -QT -l 500m -k 1 \
-i  /home/data/user/miniconda/envs/pkgs/aspera-cli/etc/asperaweb_id_das.openssh \
#这个后面是openssh密钥的路径,可以用find ~ -name asperaweb_id_dsa.openssh找到你的路径 \
ear-fasp@$id .
done

脚本和link.txt文件需要在同一个工作目录下,然后使用nohup命令后台运行

代码语言:linux
复制
nohup bash download.sh >download.log 2>&1 &

下载速度或者能否下载成功就要靠国内小伙伴们自己的某些软件或硬件各显神通了,我自己的体验是大部分时间都可以有比较快的速度。

下载完成后就可以在工作目录下找到对应的fastq.gz文件,这时候需要使用md5sum验证完整性。

在ENA数据库中勾选fastq_md5,下载tsv后打开如下

代码语言:linux
复制
nohup md5sum -c md5.txt >check.log
看,有一个文件下载失败,这时候就需要重新下载了
看,有一个文件下载失败,这时候就需要重新下载了

重新下载的步骤为了节省篇幅不再赘述。记得下载完再次验证完整性!!!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档