前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >今年暑假一起学单细胞吧(附上游数据下载tips)

今年暑假一起学单细胞吧(附上游数据下载tips)

作者头像
生信技能树jimmy
发布2023-08-31 10:00:36
3830
发布2023-08-31 10:00:36
举报
文章被收录于专栏:单细胞天地

引言

作为一个单细胞小白,这个暑期我将在单细胞天地开启一个新的专辑

这个新专辑有以下几点希冀:

  • 带着像我一样的单细胞小白,一步步利用我们生信技能树、生信菜鸟团、单细胞天地的资源,掌握基本的scRNAseq流程
  • 在学习的过程中,探索出合适的学习路径,帮助大家更好地利用已有资源
  • 对过往推文中出现的错误、更新的软件进行审查,推陈出新
  • 在过去的基本内容上深入挖掘影响小白学习的障碍,提炼总结,拓宽深度宽度
  • 和大家讨论我在从零开始学习过程中遇到的问题,老师们在评论区指出我的不足提出建议

而我在将自己的学习笔记排版成推文时也会遵循以下行文特点:

  • 务必详实逐步复现,如展示原推文中没展示的过程结果,添加参考资料帮助理解
  • 重点推陈出新,如果原推文足够详细且我没遇到其他问题,可能会直接带过这篇学习推文,只在推文中展示结果,但是仍会告诉大家我看了啥,以便梳理小白学习路径

tips:

本专辑谈到的bulk相关流程和代码都可以在生信菜鸟团转录组专辑找到

在第一阶段中,我们选取单细胞天地中单细胞实战这五篇推文开始入门认识

之所以选取这个模块,是因为这部分包含了scRNAseq的上游实验部分,掌握好这部分能够更好帮助我们了解scRNAseq的结果文件,进行下游分析

今天这篇推文作为开端,将根据单细胞实战(一)数据下载 这篇内容展开数据下载

Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA

有两名患者

以患者2586-4为例下载测序数据

可以看到是最常见的10X单细胞测序

在下载数据前我觉得需要提一下我们要拿去进行定量获得表达矩阵所需要的数据

简单来说以一个样本为单位,我们需要至少有两个fastq文件才能进行定量,其中一个为测序reads文件,另一个为barcode+UMI(简单理解成细胞+分子标识)

这需要区别于bulk RNAseq:

bulk双端测序一个样本才会有两个fq文件,并且大小差不多。而单细胞可以理解为都是双端测序没有单端,所以至少会有两个fq文件,并且大小有别。无论是双端bulk还是single cell,fq文件后缀常常都是_R1 _R2,所以要求我们根据文件大小经验或者去看实验设计来分辨bulk和sc。

【flag】具体的10X单细胞测序原理,我们将在下一期谈到,这里只需有个概念。

之所以提前讲这个是因为,我在学习 单细胞实战 这五篇推文前,在高铁上闲来无事快速看了遍曾老师在b站上18年底上传的单细胞视频课

完整版视频上线!全!面!免!费!#全网第一的单细胞转录组实战演练 https://www.bilibili.com/video/BV1dt411Y7nn/?spm_id_from=333.999.0.0&vd_source=852ec8cbb4975dabedb5d1f798b80c2a

在这个视频合集中,scRNAseq上游走的基本上也是bulk的流程,使用的是bulk的软件进行比对、定量(现在10X配套软件cellranger可以直接从fq文件定量),我猜是那个时候10X还没有如今这么高的市场份额,毕竟现在已经过去快5年了,看完视频后我想当然地以为上游就和bulk一样去ENA拿fq文件好了,不用自己下sra再转为fq,这个时候我还没有10X单细胞测序原理、cellranger定量输入文件要求等相关概念

所以不出意料后面遇到了问题

我的下载数据历程:

使用原文代码下载sratools(prefetch)和ascp后下载sra:

代码语言:javascript
复制
conda install -c daler sratoolkit
prefetch -h # 可以显示帮助文档就说明安装成功
# 如果要下载数据比如SRR文件,直接加ID号,指定输出目录就好
prefetch SRRxxxxxxx -O PATH
代码语言:javascript
复制
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安装
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目录下看看是不是存在了.aspera文件夹,有的话表示安装成功
cd && ls -a
# 将aspera软件加入环境变量,并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后检查ascp是不是能用了
ascp --help

在获取到Accession List后下载,运行脚本,下载失败

这个时候我直接放弃了sra下载,直接用fq,我之前做bulk都好久没自己拿sra转了

直接去ENA下fq文件

有两个入口

  • 我之前下载bulk数据fq文件 用这个 https://sra-explorer.info/
  • https://www.ebi.ac.uk/ena/browser/home

其实可以发现,两个web入口下载数据的链接是一样的

其实这个时候就可以发现端倪,每个样本只有一个fq文件!但我们还是按照当时我作为小白的情景走一遍

一般用ascp高速下载
代码语言:javascript
复制
#!/usr/bin/env bash
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/008/SRR7722938/SRR7722938.fastq.gz . && mv SRR7722938.fastq.gz SRR7722938_GSM3330560_Tumor_Disc_AR_Homo_sapiens_RNA-Seq.fastq.gz
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/007/SRR7722937/SRR7722937.fastq.gz . && mv SRR7722937.fastq.gz SRR7722937_GSM3330559_Tumor_Disc_Pre_Homo_sapiens_RNA-Seq.fastq.gz
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/009/SRR7722939/SRR7722939.fastq.gz . && mv SRR7722939.fastq.gz SRR7722939_GSM3330561_PBMC_Pre_Homo_sapiens_RNA-Seq.fastq.gz
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/001/SRR7722941/SRR7722941.fastq.gz . && mv SRR7722941.fastq.gz SRR7722941_GSM3330563_PBMC_Disc_Resp_Homo_sapiens_RNA-Seq.fastq.gz
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/000/SRR7722940/SRR7722940.fastq.gz . && mv SRR7722940.fastq.gz SRR7722940_GSM3330562_PBMC_Disc_Early_Homo_sapiens_RNA-Seq.fastq.gz
ascp -QT -l 300m -P33001 -i $HOME/.aspera/connect/etc/asperaweb_id_dsa.openssh era-fasp@fasp.sra.ebi.ac.uk:vol1/fastq/SRR772/002/SRR7722942/SRR7722942.fastq.gz . && mv SRR7722942.fastq.gz SRR7722942_GSM3330564_PBMC_Disc_AR_Homo_sapiens_RNA-Seq.fastq.gz

这时第一个入口下载的优势就出现了,自动生成了ascp高速下载脚本,并且贴心地为我们修改了文件名

而第二个入口只提供了用wget下载的脚本,需要自己写ascp高速下载

这个时候我拿着下载好的fq文件兴冲冲地往cellranger定量赶,才发现了这个问题

单细胞实战(二) cell ranger使用前注意事项 利用cell ranger软件分析,一般需要两个输入文件,其中一个是测序reads,另一个是UMI+Barcode文件,那么只生成一个文件是不够的

其实,通过这一个项目文件并不能说明不可以直接获取单细胞所需fq文件

在我后面的学习中学到了可以用kingfisher下载对应project所有fq文件,比去ENA还方便

【flag】小鼠的5个样品的10x技术单细胞转录组上游定量(文末赠送全套代码) 这篇推文的学习也会在本专辑后面出现 对应project id: PRJNA853539

而PRJNA853539对应的fq文件并不像本文下载的fq文件那样只有一个,而是很贴心地分好了_1 _2

鉴于此我联系本文提出两个问题:

  • 为什么kingfisher下载的fq文件是完整的?它和去ENA下载有不同吗?

其实可以发现PRJNA853539去ENA下载的话也是完整的:

所以这并不是下载方法的问题而是测序项目的问题,就这个问题我也询问了曾老师,老师说这种情况作者上传数据导致的,所以值得注意

可能你运气好要用的fq文件说完整的如PRJNA853539,也可能运气不好就只有一个,像本文一样,就需要走后面会谈到的不得不走的sra到fq的转化了

  • 本文各样本ENA中只有一个fq文件,这个fq文件对应什么呢?

(_I1 _R1 _R2 文件 是我后面获取sra再转成fq后得到的完整的)

可以发现单独一个的fq文件和完整三个fq文件(前面我们谈至少两个 就是这里的_R1 _R2)中最大的fq文件是大小一致的,这就说明单独一个fq其实是reads文件

现在成了,得走回头路了,只能获取sra然后转成fq

重装sratools(prefetch)下载sra

原推文下载源:

代码语言:javascript
复制
conda install -c daler sratoolkit

重装:

代码语言:javascript
复制
conda remove sratoolkit

conda install sra-tools

下载成功:

需要注意的是sc中sra转成fq与bulk还有点区别,需要注意--split-*参数的使用:

单细胞实战(二) cell ranger使用前注意事项

代码语言:javascript
复制
cat SRR_Acc_List-2586-4.txt |while read id; do
time fastq-dump --gzip --split-files -A $id $id/${id}.sra && echo "**${id}.sra to fastq done**"
done
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 单细胞天地 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 我的下载数据历程:
    • 使用原文代码下载sratools(prefetch)和ascp后下载sra:
      • 重装sratools(prefetch)下载sra
        • 需要注意的是sc中sra转成fq与bulk还有点区别,需要注意--split-*参数的使用:
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档