作为一个单细胞小白,这个暑期我将在单细胞天地开启一个新的专辑
这个新专辑有以下几点希冀:
而我在将自己的学习笔记排版成推文时也会遵循以下行文特点:
tips:
本专辑谈到的bulk相关流程和代码都可以在生信菜鸟团转录组专辑找到
在第一阶段中,我们选取单细胞天地中单细胞实战这五篇推文开始入门认识
之所以选取这个模块,是因为这部分包含了scRNAseq的上游实验部分,掌握好这部分能够更好帮助我们了解scRNAseq的结果文件,进行下游分析
今天这篇推文作为开端,将根据单细胞实战(一)数据下载 这篇内容展开数据下载
Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA
有两名患者
以患者2586-4为例下载测序数据
可以看到是最常见的10X单细胞测序
在下载数据前我觉得需要提一下我们要拿去进行定量获得表达矩阵所需要的数据
简单来说以一个样本为单位,我们需要至少有两个fastq文件才能进行定量,其中一个为测序reads文件,另一个为barcode+UMI(简单理解成细胞+分子标识)
这需要区别于bulk RNAseq:
bulk双端测序一个样本才会有两个fq文件,并且大小差不多。而单细胞可以理解为都是双端测序没有单端,所以至少会有两个fq文件,并且大小有别。无论是双端bulk还是single cell,fq文件后缀常常都是_R1 _R2,所以要求我们根据文件大小经验或者去看实验设计来分辨bulk和sc。
【flag】具体的10X单细胞测序原理,我们将在下一期谈到,这里只需有个概念。
完整版视频上线!全!面!免!费!#全网第一的单细胞转录组实战演练 https://www.bilibili.com/video/BV1dt411Y7nn/?spm_id_from=333.999.0.0&vd_source=852ec8cbb4975dabedb5d1f798b80c2a
在这个视频合集中,scRNAseq上游走的基本上也是bulk的流程,使用的是bulk的软件进行比对、定量(现在10X配套软件cellranger可以直接从fq文件定量),我猜是那个时候10X还没有如今这么高的市场份额,毕竟现在已经过去快5年了,看完视频后我想当然地以为上游就和bulk一样去ENA拿fq文件好了,不用自己下sra再转为fq,这个时候我还没有10X单细胞测序原理、cellranger定量输入文件要求等相关概念
所以不出意料后面遇到了问题
conda install -c daler sratoolkit
prefetch -h # 可以显示帮助文档就说明安装成功
# 如果要下载数据比如SRR文件,直接加ID号,指定输出目录就好
prefetch SRRxxxxxxx -O PATH
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安装
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目录下看看是不是存在了.aspera文件夹,有的话表示安装成功
cd && ls -a
# 将aspera软件加入环境变量,并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后检查ascp是不是能用了
ascp --help
在获取到Accession List后下载,运行脚本,下载失败
这个时候我直接放弃了sra下载,直接用fq,我之前做bulk都好久没自己拿sra转了
有两个入口
其实可以发现,两个web入口下载数据的链接是一样的
其实这个时候就可以发现端倪,每个样本只有一个fq文件!但我们还是按照当时我作为小白的情景走一遍
#!/usr/bin/env bash
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/008/SRR7722938/SRR7722938.fastq.gz . && mv SRR7722938.fastq.gz SRR7722938_GSM3330560_Tumor_Disc_AR_Homo_sapiens_RNA-Seq.fastq.gz
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/007/SRR7722937/SRR7722937.fastq.gz . && mv SRR7722937.fastq.gz SRR7722937_GSM3330559_Tumor_Disc_Pre_Homo_sapiens_RNA-Seq.fastq.gz
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/009/SRR7722939/SRR7722939.fastq.gz . && mv SRR7722939.fastq.gz SRR7722939_GSM3330561_PBMC_Pre_Homo_sapiens_RNA-Seq.fastq.gz
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/001/SRR7722941/SRR7722941.fastq.gz . && mv SRR7722941.fastq.gz SRR7722941_GSM3330563_PBMC_Disc_Resp_Homo_sapiens_RNA-Seq.fastq.gz
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/000/SRR7722940/SRR7722940.fastq.gz . && mv SRR7722940.fastq.gz SRR7722940_GSM3330562_PBMC_Disc_Early_Homo_sapiens_RNA-Seq.fastq.gz
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/002/SRR7722942/SRR7722942.fastq.gz . && mv SRR7722942.fastq.gz SRR7722942_GSM3330564_PBMC_Disc_AR_Homo_sapiens_RNA-Seq.fastq.gz
这时第一个入口下载的优势就出现了,自动生成了ascp高速下载脚本,并且贴心地为我们修改了文件名
而第二个入口只提供了用wget下载的脚本,需要自己写ascp高速下载
这个时候我拿着下载好的fq文件兴冲冲地往cellranger定量赶,才发现了这个问题
单细胞实战(二) cell ranger使用前注意事项 利用cell ranger软件分析,一般需要两个输入文件,其中一个是测序reads,另一个是UMI+Barcode文件,那么只生成一个文件是不够的
在我后面的学习中学到了可以用kingfisher下载对应project所有fq文件,比去ENA还方便
【flag】小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码) 这篇推文的学习也会在本专辑后面出现 对应project id: PRJNA853539
而PRJNA853539对应的fq文件并不像本文下载的fq文件那样只有一个,而是很贴心地分好了_1 _2
鉴于此我联系本文提出两个问题:
其实可以发现PRJNA853539去ENA下载的话也是完整的:
所以这并不是下载方法的问题而是测序项目的问题,就这个问题我也询问了曾老师,老师说这种情况作者上传数据导致的,所以值得注意
可能你运气好要用的fq文件说完整的如PRJNA853539,也可能运气不好就只有一个,像本文一样,就需要走后面会谈到的不得不走的sra到fq的转化了
(_I1 _R1 _R2 文件 是我后面获取sra再转成fq后得到的完整的)
可以发现单独一个的fq文件和完整三个fq文件(前面我们谈至少两个 就是这里的_R1 _R2)中最大的fq文件是大小一致的,这就说明单独一个fq其实是reads文件
原推文下载源:
conda install -c daler sratoolkit
重装:
conda remove sratoolkit
conda install sra-tools
下载成功:
cat SRR_Acc_List-2586-4.txt |while read id; do
time fastq-dump --gzip --split-files -A $id $id/${id}.sra && echo "**${id}.sra to fastq done**"
done