前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵

单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵

作者头像
DoubleHelix
发布2022-06-13 12:54:49
2.3K0
发布2022-06-13 12:54:49
举报

cellranger count 管道将FASTQ文件中的测序结果与参考转录组进行比对,并生成一个.cloupe文件,用于在Loupe Browser中进行可视化和分析,同时还生成了一些与其他公开工具兼容的输出,用于进一步分析。

接下来,需要一个参考基因组数据。从FASTQ文件的下载页面可以看到这些是人类细胞。在10x Genomics支持网站上有几个预构建的人类参考转录组包。下载最新的包并解压缩它。

#人
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-cellranger-GRCh38-3.0.0.tar.gz
#小鼠
curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz

解压下载的基因组文件:

  tar zxvf refdata-gex-GRCh38-2020-A.tar.gz

接下来使用来自人类外周血单个核细胞(PBMC)的1000个 PBMC 数据集,包括淋巴细胞(T 细胞、 B细胞和 NK 杀伤细胞)和单核细胞。

curl -O https://cf.10xgenomics.com/supp/cell-exp/refdata-gex-mm10-2020-A.tar.gz

这个数据集的大小是5.17G,下载需要几分钟。

因为这是一个 tar 文件而不是 tar.gz 文件,所以您不需要使用前面的教程中使用的 -z 参数来提取它。

tar -xvf pbmc_1k_v3_fastqs.tar
pbmc_1k_v3_fastqs/
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L001_R2_001.fastq.gz
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L002_I1_001.fastq.gz
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L001_R1_001.fastq.gz
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L002_R1_001.fastq.gz
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L002_R2_001.fastq.gz
pbmc_1k_v3_fastqs/pbmc_1k_v3_S1_L001_I1_001.fastq.gz

现在你有了一个包含两组 FASTQ 文件的目录,可以看到它们是根据 bcl2fastq 变数命名原则命名的: Sample_S1_L00X_R1_001.fastq.gz。这些文件的名称表明它们都来自同一个名为 pbmc _ 1k _ v3的样本,并且这个库在两个lanes上运行,Lane 1: L001 和 lane 2: L002.。

一旦你有了 FASTQ 文件和参考转录组,你就可以运行cellranger count了。

cellranger count --id=run_count_1kpbmcs \
--fastqs= /mnt/f/Linux/run_cellranger_count/pbmc_1k_v3_fastqs \
--sample=pbmc_1k_v3 \
--transcriptome= /mnt/f/Linux/genomeAnno/hsa/refdata-gex-GRCh38-2020-A \
--expect-cells=1000 \
--localcores=16 \
--localmem=128 \
--nosecondary

• --id:输出文件夹名

• --transcriptome:参考基因组所在文件夹

• --fastqs:fastq文件所在文件夹名,如下图所示

• --sample:用于分析的文件名

• --expect-cells:预计的细胞数,软件会根据实际情况进行估算

• --localcores:使用的线程数

• --localmem:使用的内存数

• --nosecondary:不进行下游聚类分析


下面是前面数据集的案例

单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ

cellranger count --id=cellranger_count \
--transcriptome=/mnt/f/Linux/genomeAnno/hsa/refdata-gex-GRCh38-2020-A \
--fastqs=fastq_path/H35KCBCXY/test_sample \
--sample=test_sample \
--expect-cells=1000 \
--localcores=16 \
--localmem=128 \
--nosecondary

单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ

cellranger count --id=cellranger_count \
--transcriptome=/mnt/f/Linux/genomeAnno/hsa/refdata-gex-GRCh38-2020-A \
--fastqs=/mnt/f/Linux/sradata/sra_data/fastqs_path \
--sample=SRR7722937 \
--expect-cells=1000 \
--localcores=168 \
--localmem=128 \
--nosecondary

参考:

https://support.10xgenomics.com/single-cell-gene-expression/software/pipelines/latest/using/tutorial_ct

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-05-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MedBioInfoCloud 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档