前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ

单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ

作者头像
DoubleHelix
发布2022-06-13 12:53:59
3.4K0
发布2022-06-13 12:53:59
举报
文章被收录于专栏:生物信息云

单细胞专题 | 1.单细胞测序(10×genomics技术)的原理

单细胞专题 | 2.如何开始单细胞RNASeq数据分析

单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ


(1) 软件安装和介绍

SRAtoolkit是NCBI提供的SRA文件处理工具集, SRA文件是NCBI的SRA数据库数据的储存格式,许多公开的scRNA-seq数据都会上传到该数据库。SRAtoolkit将NCBI的SRA数据库中SRA文件转换为FastQ文件。

在conda的环境中安装SRAtoolkit。

地址:https://anaconda.org/daler/sratoolkit

代码语言:javascript
复制
conda install -c daler sratoolkit

不使用conda安装,可在线下载后自行安装,并配置环境变量。

软件下载地址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

代码语言:javascript
复制
curl -O https://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/3.0.0/sratoolkit.3.0.0-centos_linux64.tar.gz
tar zxf sratoolkit.3.0.0-centos_linux64.tar.gz
##配置环境变量
echo 'export PATH=~/sratoolkit.3.0.0-centos_linux64/bin:$PATH' >> ~/.bashrc
source ~/.bashrc

安装后进行配制

代码语言:javascript
复制
vdb-config -i

主要修改工作空间。

(2) 案例

数据地址:

代码语言:javascript
复制
https://www.ncbi.nlm.nih.gov/Traces/study/?acc=PRJNA483959&o=acc_s%3Aa

点击Total的“Accession List”下载整个研究的SRA文件编号;

点击Total的“Metadata”下载网页中SRA文件描述。

代码语言:javascript
复制
cd /mnt/f/Linux/scRNASeqTest/
mkdir sra_data
cd sra_data/

下载的文件放在:sra_data目录下。

SRR_Acc_List.txt:整个研究的SRA文件编号;

SraRunTable.txt:SRA文件描述。

下载数据:

随便点击一个样本进去

在data access窗口,可以选择AWS或者NCBI的链接下载。

代码语言:javascript
复制
curl -O https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR7722937/SRR7722937

数据下载链接是有规律的。可以写一个脚本读入SRR_Acc_List.txt文件内容,下载。

代码语言:javascript
复制
for i in `cat SRR_Acc_List.txt`
    do
        echo $i
        curl -O https://sra-pub-run-odp.s3.amazonaws.com/sra/${i}/${i}
done

也可以使用prefetch下载。但prefetch目前会报错,我也没有研究。

下载后的数据使用fastq-dump命令可将sra数据转换成fastq。

代码语言:javascript
复制
fastq-dump --gzip --split-files -X 25000 -O fastqs_path SRR7722937

• --gzip:输出gz压缩格式的fastq文件

• --split-files:分隔为上传时的多个fastq文件

• -X:输出的fastq的记录数目,这里为了教学,输出前25000条记录,实际分析时,不要设置此参数

• -O:fastq文件输出的文件夹

• data/SRR7722937:SRA文件所在路径

同样可以写一个循环脚本处理。


参考:

https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MedBioInfoCloud 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • (1) 软件安装和介绍
  • (2) 案例
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档