前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >跟着小鱼头学单细胞测序-如何使用Cell Ranger V6 (二)

跟着小鱼头学单细胞测序-如何使用Cell Ranger V6 (二)

作者头像
作图丫
发布2022-03-29 08:23:13
7510
发布2022-03-29 08:23:13
举报
文章被收录于专栏:作图丫

导语

GUIDE ╲

Cell Ranger作为由10X官方开发的配套分析软件,在单细胞分析中被应用的很多。我们之前给大家介绍过这款软件的主要模块,今天我们继续介绍一下这款模块的具体使用。

正文

Cell Ranger是10X公司专门为单细胞RNA测序数据量身打造的分析软件,能够通过直接读取原始下机测序数据,进行比对,定量,聚类, 可视化以及更多的基因表达分析的下游分析,并且结合配套的浏览平台Loupe Browser为用户提供互动式的可视化功能,为大家的分析工作提供的很大的便利。文中软件信息及代码均从Cell Ranger官网获取【1】。

Cell Ranger针对的是基于3`建库的单细胞RNA测序数据,最近升级到了version 6.0,在算法流程和分析模块上面有了一些更新,新版本中功能在之前四大模块的基础上又新增加了一个,主要包括:

  • cellranger mkfastq
  • cellranger count
  • cellranger aggr
  • cellranger reanalyze
  • cellranger multi (新增模块)

在上一篇Cell Ranger V6 (一)中我们详细介绍了mkfastq,count和aggr模块的使用,大家感兴趣的话可以看看。这里我们详细介绍一下剩余的两个模块。

模块04

cellranger reanalyze

模块count和aggr分别用于基因表达的定量和数据整合,在他们的输出结果中分别都有一个二级分析结果的文件夹 (/outs/analysis/),该文件夹包含了降维、聚类、差异表达分析等结果,均显示为CSV文件,而对应的可视化结果则在网页版报告中(/outs/web_summary.html)。我们知道在这些二级分析中涉及到许多的参数设置,而参数的改变也能得到不同的结果。模块reanalyze则针对这些分析设置了相应的参数,用户可以根据需要自行改变,对feature-barcode表达矩阵重新进行二级分析。

与agrr模块类似,我们可以将想调整的参数保存在CSV文件中,然后设置—params来运行:

代码语言:javascript
复制
$ cellranger reanalyze --id=MySamples_reanalysis \
                       --matrix=MySamples/outs/filtered_feature_bc_matrix.h5 \
                       --params=MySamples_reanalysis.csv #存放调整的参数

下表中列出了可以一些常用的可在CSV文件中调整的参数供大家参考:

参数

Default

参考取值范围

描述

num_analysis_bcs

Null

<=现有的细胞数目

随机抽取N个细胞的子集用于分析

num_pca_bcs

Null

<=现有的细胞数目

在PCA计算中随机将数据集拆分为N个细胞的子集;PCA计算仍然用于整体数据,如果分析中内存不足可尝试降低参数。

num_pca_genes

Null

<=参考转录组中的基因数

在PCA计算时,将基因按照normalized dispersion排序,选取top N 个基因;如果分析中内存不足可尝试降低参数。

num_principal_comps

10

10-100

计算PCA的N个主要成分

cbc_knn

10

5-20

指定用于识别相互最近邻居的最近邻居数;数目设置过高容易导致内存不够。

graphclust_neighbors

0

10-500

指定在聚类中使用的最近邻数目;数目越低聚类数目越多。

max_clusters

10

10-50

计算K-mean聚类时设置的K值

tsne_input_pcs

Null

<=num_principal_comps

用于TSNE的top N个主成分

tsne_perplexity

30

30-50

用于设置TSNE图的离散效果

tsne_max_dims

2

2或3

TSNE图的维度

umap_input_pcs

Null

<=num_principal_comps

用于UMAP的top N个主成分

umap_n_neighbors

30

[5,50]

指定在UMAP中使用的最近邻数目

umap_max_dims

2

2或3

UMAP图的维度

random_seed

0

修改随机数能稍微改变TSNE和UMAP效果图

可以看到可以调整的参数有很多,以上列出的大多是跟聚类和可视化小图相关的参数。在处理细胞数目较大或类别较多的数据集时,可以尝试提高主成分个数(num_principal_comps)或者聚类类别(max_clusters);在遇到内存问题时,可以尝试设置num_pca_bcs和num_pca_genes来限制内存的使用,避免内存不足的情况。

模块05

cellranger multi

该模块是Cell Ranger最新的V6版本中新添加的,作用与count模块类似,用于表达矩阵的定量,而multi模块主要用于3’端建库的cell multiplexing数据,除此之外,仍然建议使用count模块。

Cell multiplexing 指的是用分子标签标记细胞或细胞核样本,然后将该样本与其他标记的样本混合,并一起制备文库和测序。该操作的优势是提高实验中的细胞通量。

该模块的运行方法与count类似,也需要设置一个CVS文件列出library和实验设计的变量:

代码语言:javascript
复制
$ cellranger multi --id= MySamples --csv=/home/MySamples.csv

Multi模块运行结果如下所示,包含multi和per_sample_outs两大块,其中multi文件夹中的文件是整个multiplexing实验的通用信息,而per_sample_outs则是拆分后的单个样本信息,这也是我们后续分析会用到的。

小编总结

Cell Ranger的众多模块中使用频率最高的模块当属count模块。一般情况下,我们拿到的10X测序数据都是fastq文件格式,通常是不需要我们从下机文件开始处理,通过count模块生成表达矩阵后,分析人员通常会用其他分析工具如Seurat,scanpy等来进行后续分析。虽然reanalyze模块提供了较多的参数,但是依然还没有Seurat或scanpy等软件强大。虽然如此,Cell Ranger的分析结果仍然是一个非常全面的初步质检报告,为我们接下来的分析提供了很大的帮助。

Reference:

【1】https://support.10xgenomics.com/single-cell-gene-expression/software/overview/welcome

END

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作图丫 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档