首页
学习
活动
专区
圈层
工具
发布

单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ

单细胞专题 | 1.单细胞测序(10×genomics技术)的原理

单细胞专题 | 2.如何开始单细胞RNASeq数据分析

单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ


(1) 软件安装和介绍

SRAtoolkit是NCBI提供的SRA文件处理工具集, SRA文件是NCBI的SRA数据库数据的储存格式,许多公开的scRNA-seq数据都会上传到该数据库。SRAtoolkit将NCBI的SRA数据库中SRA文件转换为FastQ文件。

在conda的环境中安装SRAtoolkit。

地址:https://anaconda.org/daler/sratoolkit

代码语言:javascript
复制
conda install -c daler sratoolkit

不使用conda安装,可在线下载后自行安装,并配置环境变量。

软件下载地址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

代码语言:javascript
复制
curl -O https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-centos_linux64.tar.gz
tar zxf sratoolkit.3.0.0-centos_linux64.tar.gz
##配置环境变量
echo 'export PATH=~/sratoolkit.3.0.0-centos_linux64/bin:$PATH' >> ~/.bashrc
source ~/.bashrc

安装后进行配制

代码语言:javascript
复制
vdb-config -i

主要修改工作空间。

(2) 案例

数据地址:

代码语言:javascript
复制
https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA483959&o=acc_s%3Aa

点击Total的“Accession List”下载整个研究的SRA文件编号;

点击Total的“Metadata”下载网页中SRA文件描述。

代码语言:javascript
复制
cd /mnt/f/Linux/scRNASeqTest/
mkdir sra_data
cd sra_data/

下载的文件放在:sra_data目录下。

SRR_Acc_List.txt:整个研究的SRA文件编号;

SraRunTable.txt:SRA文件描述。

下载数据:

随便点击一个样本进去

在data access窗口,可以选择AWS或者NCBI的链接下载。

代码语言:javascript
复制
curl -O https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR7722937/SRR7722937

数据下载链接是有规律的。可以写一个脚本读入SRR_Acc_List.txt文件内容,下载。

代码语言:javascript
复制
for i in `cat SRR_Acc_List.txt`
    do
        echo $i
        curl -O https://sra-pub-run-odp.s3.amazonaws.com/sra/${i}/${i}
done

也可以使用prefetch下载。但prefetch目前会报错,我也没有研究。

下载后的数据使用fastq-dump命令可将sra数据转换成fastq。

代码语言:javascript
复制
fastq-dump --gzip --split-files -X 25000 -O fastqs_path SRR7722937

• --gzip:输出gz压缩格式的fastq文件

• --split-files:分隔为上传时的多个fastq文件

• -X:输出的fastq的记录数目,这里为了教学,输出前25000条记录,实际分析时,不要设置此参数

• -O:fastq文件输出的文件夹

• data/SRR7722937:SRA文件所在路径

同样可以写一个循环脚本处理。


参考:

https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

下一篇
举报
领券