导语
GUIDE ╲
Cell Ranger作为由10X官方开发的配套分析软件,在单细胞分析中被应用的很多。我们之前给大家介绍过这款软件的主要模块,今天我们继续介绍一下这款模块的具体使用。
正文
Cell Ranger是10X公司专门为单细胞RNA测序数据量身打造的分析软件,能够通过直接读取原始下机测序数据,进行比对,定量,聚类, 可视化以及更多的基因表达分析的下游分析,并且结合配套的浏览平台Loupe Browser为用户提供互动式的可视化功能,为大家的分析工作提供的很大的便利。文中软件信息及代码均从Cell Ranger官网获取【1】。
Cell Ranger针对的是基于3`建库的单细胞RNA测序数据,最近升级到了version 6.0,在算法流程和分析模块上面有了一些更新,新版本中功能在之前四大模块的基础上又新增加了一个,主要包括:
在上一篇Cell Ranger V6 (一)中我们详细介绍了mkfastq,count和aggr模块的使用,大家感兴趣的话可以看看。这里我们详细介绍一下剩余的两个模块。
模块04
cellranger reanalyze
模块count和aggr分别用于基因表达的定量和数据整合,在他们的输出结果中分别都有一个二级分析结果的文件夹 (/outs/analysis/),该文件夹包含了降维、聚类、差异表达分析等结果,均显示为CSV文件,而对应的可视化结果则在网页版报告中(/outs/web_summary.html)。我们知道在这些二级分析中涉及到许多的参数设置,而参数的改变也能得到不同的结果。模块reanalyze则针对这些分析设置了相应的参数,用户可以根据需要自行改变,对feature-barcode表达矩阵重新进行二级分析。
与agrr模块类似,我们可以将想调整的参数保存在CSV文件中,然后设置—params来运行:
$ cellranger reanalyze --id=MySamples_reanalysis \
--matrix=MySamples/outs/filtered_feature_bc_matrix.h5 \
--params=MySamples_reanalysis.csv #存放调整的参数
下表中列出了可以一些常用的可在CSV文件中调整的参数供大家参考:
参数 | Default | 参考取值范围 | 描述 |
---|---|---|---|
num_analysis_bcs | Null | <=现有的细胞数目 | 随机抽取N个细胞的子集用于分析 |
num_pca_bcs | Null | <=现有的细胞数目 | 在PCA计算中随机将数据集拆分为N个细胞的子集;PCA计算仍然用于整体数据,如果分析中内存不足可尝试降低参数。 |
num_pca_genes | Null | <=参考转录组中的基因数 | 在PCA计算时,将基因按照normalized dispersion排序,选取top N 个基因;如果分析中内存不足可尝试降低参数。 |
num_principal_comps | 10 | 10-100 | 计算PCA的N个主要成分 |
cbc_knn | 10 | 5-20 | 指定用于识别相互最近邻居的最近邻居数;数目设置过高容易导致内存不够。 |
graphclust_neighbors | 0 | 10-500 | 指定在聚类中使用的最近邻数目;数目越低聚类数目越多。 |
max_clusters | 10 | 10-50 | 计算K-mean聚类时设置的K值 |
tsne_input_pcs | Null | <=num_principal_comps | 用于TSNE的top N个主成分 |
tsne_perplexity | 30 | 30-50 | 用于设置TSNE图的离散效果 |
tsne_max_dims | 2 | 2或3 | TSNE图的维度 |
umap_input_pcs | Null | <=num_principal_comps | 用于UMAP的top N个主成分 |
umap_n_neighbors | 30 | [5,50] | 指定在UMAP中使用的最近邻数目 |
umap_max_dims | 2 | 2或3 | UMAP图的维度 |
random_seed | 0 | 修改随机数能稍微改变TSNE和UMAP效果图 |
可以看到可以调整的参数有很多,以上列出的大多是跟聚类和可视化小图相关的参数。在处理细胞数目较大或类别较多的数据集时,可以尝试提高主成分个数(num_principal_comps)或者聚类类别(max_clusters);在遇到内存问题时,可以尝试设置num_pca_bcs和num_pca_genes来限制内存的使用,避免内存不足的情况。
模块05
cellranger multi
该模块是Cell Ranger最新的V6版本中新添加的,作用与count模块类似,用于表达矩阵的定量,而multi模块主要用于3’端建库的cell multiplexing数据,除此之外,仍然建议使用count模块。
Cell multiplexing 指的是用分子标签标记细胞或细胞核样本,然后将该样本与其他标记的样本混合,并一起制备文库和测序。该操作的优势是提高实验中的细胞通量。
该模块的运行方法与count类似,也需要设置一个CVS文件列出library和实验设计的变量:
$ cellranger multi --id= MySamples --csv=/home/MySamples.csv
Multi模块运行结果如下所示,包含multi和per_sample_outs两大块,其中multi文件夹中的文件是整个multiplexing实验的通用信息,而per_sample_outs则是拆分后的单个样本信息,这也是我们后续分析会用到的。
小编总结
Cell Ranger的众多模块中使用频率最高的模块当属count模块。一般情况下,我们拿到的10X测序数据都是fastq文件格式,通常是不需要我们从下机文件开始处理,通过count模块生成表达矩阵后,分析人员通常会用其他分析工具如Seurat,scanpy等来进行后续分析。虽然reanalyze模块提供了较多的参数,但是依然还没有Seurat或scanpy等软件强大。虽然如此,Cell Ranger的分析结果仍然是一个非常全面的初步质检报告,为我们接下来的分析提供了很大的帮助。
Reference:
【1】https://support.10xgenomics.com/single-cell-gene-expression/software/overview/welcome
END