前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >人生第一次使用ASCP 下载数据

人生第一次使用ASCP 下载数据

原创
作者头像
旋转木马
修改2023-06-04 22:02:45
1.1K1
修改2023-06-04 22:02:45
举报

由于课题需要下载single cell raw data 进行后续分析,但是NCBI SRA 文件分割后只有一个FASTQ文件,只能从ENA上下载BAM 文件,使用Cell ranger bamtofastq 转为fastq文件再进行比对。开启了慢慢长ERROR路

Step1 ENA 收集数据

以 Transdifferentiation of tumor infiltrating innate lymphoid cells during progression of colorectal cancer 为例 GSE142694 (https://www.nature.com/articles/s41422-020-0312-y)

选取TSV 获取待下载的信息

Step2 改造TSV中FTP的信息

因为我涉及到的数据比较少,就进行手动修改,数据较多的可以使用awk进行修改。

修改前:ftp.sra.ebi.ac.uk/vol1/fastq/SRR107/088/SRR10799888/SRR10799888_1.fastq.gz

修改后:fasp.sra.ebi.ac.uk:vol1/fastq/SRR107/088/SRR10799888/SRR10799888_1.fastq.gz

Step3 ASCP 下载

代码语言:shell
复制
nohup ascp -QT -l 500M -P 33001 -i "asperaweb_id_dsa.openssh" era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR107/088/SRR10799888/SRR10799888_1.fastq.gz ./

asperaweb_id_dsa.openssh 文件一般放在aspera软件etc文件夹下

首先 which ascp 找到该文件后,进行修改即可

由于示例文件上次fastq 不是bam格式,后续将分享另一个数据利用cellranger bamtofastq

Step4 BAM to Fastq

由于本意是希望下载BAM文件,但示例数据没有上次BAM文件,后续更换示例文件。

代码语言:shell
复制
nohup cellrange bamtofastq --nthreads 30 --tarceback XXX.bam.1 out

out 为存放fastq的结果文件

Step5 BAM to fastq

代码语言:shell
复制
nohup cellranger bamtofastq --nthreads 30 --traceback XX.bam.1 out

XX.bam.1为ENA 下载好的BAM文件 out为输出文件夹(必须设定)

bam文件输出多个文件,单个文件为一个样本,说明该bam中存在多个样本,以单个文件为单位进行后续分析

Step 6 Cellranger count

比对前需要根据物种信息和参考基因组版本构建cellranger 的index

可以使用for循环和sh来挂后台进行比对mapping

代码语言:shell
复制
vi counts.sh
代码语言:shell
复制
for i in {1..12}
do
        cellranger count --id=r_data${i} --transcriptome=/sc-seq/database/cellranger/mm10/mm10_cellranger --fastqs=/sc-seq/out/f_${i}  --sample=bamtofastq

done

--id:设定输出文件名

--transcriptome: cellranger index 地址

--fastqs:待比对fastq文件夹

--sample:一定要选bamtofastq !!!

Step6.1 SRA 文件进行cellranger count

代码语言:shell
复制
fastq-dump --split --gzip xx.sra
ls -h
xx_1.fastq.gz
xx_2.fastq.gz
# 需根据cell ranger 的命名规则进行修改
mv xx_1.fastq.gz xx_S1_L001_R1_001.fastq.gz
mv xx_2.fastq.gz xx_S1_L001_R2_001.fastq.gz
mkdir data0_xx
mv *.gz data0_xx
nohup cellranger count --id=r_data --transcriptome=/sc-seq/database/cellranger/mm10/mm10_cellranger --fastqs=/sc-seq/out/f_${i}  --sample=data0

SRA 文件的下载可以使用Prefetch 进行也可以使用上面?介绍的ASCP进行下载,祝大家科研顺利!

https://zhuanlan.zhihu.com/p/338890534(数据来源1)

https://www.jianshu.com/p/a06540027341(ascp主要参考教程)

https://github.com/10XGenomics/bamtofastq(cellranger bamtofatsq)

https://cloud.tencent.com/developer/article/2018633(cellranger bantofastq2)

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Step1 ENA 收集数据
    • 选取TSV 获取待下载的信息
      • 修改前:ftp.sra.ebi.ac.uk/vol1/fastq/SRR107/088/SRR10799888/SRR10799888_1.fastq.gz
      • 修改后:fasp.sra.ebi.ac.uk:vol1/fastq/SRR107/088/SRR10799888/SRR10799888_1.fastq.gz
      • asperaweb_id_dsa.openssh 文件一般放在aspera软件etc文件夹下
  • Step2 改造TSV中FTP的信息
  • Step3 ASCP 下载
  • Step4 BAM to Fastq
  • Step5 BAM to fastq
  • Step 6 Cellranger count
    • Step6.1 SRA 文件进行cellranger count
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档