单细胞专题 | 1.单细胞测序(10×genomics技术)的原理
单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ
SRAtoolkit是NCBI提供的SRA文件处理工具集, SRA文件是NCBI的SRA数据库数据的储存格式,许多公开的scRNA-seq数据都会上传到该数据库。SRAtoolkit将NCBI的SRA数据库中SRA文件转换为FastQ文件。
在conda的环境中安装SRAtoolkit。
地址:https://anaconda.org/daler/sratoolkit
conda install -c daler sratoolkit
不使用conda安装,可在线下载后自行安装,并配置环境变量。
软件下载地址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
curl -O https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-centos_linux64.tar.gz
tar zxf sratoolkit.3.0.0-centos_linux64.tar.gz
##配置环境变量
echo 'export PATH=~/sratoolkit.3.0.0-centos_linux64/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
安装后进行配制
vdb-config -i
主要修改工作空间。
数据地址:
https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA483959&o=acc_s%3Aa
点击Total的“Accession List”下载整个研究的SRA文件编号;
点击Total的“Metadata”下载网页中SRA文件描述。
cd /mnt/f/Linux/scRNASeqTest/
mkdir sra_data
cd sra_data/
下载的文件放在:sra_data目录下。
SRR_Acc_List.txt:整个研究的SRA文件编号;
SraRunTable.txt:SRA文件描述。
下载数据:
随便点击一个样本进去
在data access窗口,可以选择AWS或者NCBI的链接下载。
curl -O https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR7722937/SRR7722937
数据下载链接是有规律的。可以写一个脚本读入SRR_Acc_List.txt文件内容,下载。
for i in `cat SRR_Acc_List.txt`
do
echo $i
curl -O https://sra-pub-run-odp.s3.amazonaws.com/sra/${i}/${i}
done
也可以使用prefetch下载。但prefetch目前会报错,我也没有研究。
下载后的数据使用fastq-dump
命令可将sra数据转换成fastq。
fastq-dump --gzip --split-files -X 25000 -O fastqs_path SRR7722937
• --gzip:输出gz压缩格式的fastq文件
• --split-files:分隔为上传时的多个fastq文件
• -X:输出的fastq的记录数目,这里为了教学,输出前25000条记录,实际分析时,不要设置此参数
• -O:fastq文件输出的文件夹
• data/SRR7722937:SRA文件所在路径
同样可以写一个循环脚本处理。
参考:
https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc
本文分享自 MedBioInfoCloud 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!