前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Seurat4.0系列教程15:映射和注释查询数据集

Seurat4.0系列教程15:映射和注释查询数据集

作者头像
生信技能树jimmy
发布2022-01-10 08:59:34
1.4K0
发布2022-01-10 08:59:34
举报
文章被收录于专栏:单细胞天地

单细胞参考映射简介

在此教程中,我们首先构建一个整合的参考集,然后演示如何利用此参考集来注释新的查询数据集。生成参考集可以参考该文[1]中详细流程。生成后,此参考集可用于通过细胞类型标签转移和将查询细胞投影到参考集 UMAP 等任务来分析其他查询数据集。值得注意的是,这不需要校正基础原始查询数据,因此,如果提供高质量的参考集,则可以成为高效的策略。

数据集预处理

为了演示,我们选择了通过四种技术(CelSeq (GSE81076)、 CelSeq2 (GSE85241)、 Fluidigm C1 (GSE86469) 和 SMART-Seq2 (E-MTAB-5061) 产生的人类胰岛细胞数据集。为了方便起见,我们通过SeuratData包分发此数据集。元数据包含四个数据集中每个细胞的技术(列)和细胞类型注释(列)。

代码语言:javascript
复制
library(Seurat)
library(SeuratData)
代码语言:javascript
复制
InstallData("panc8")

为了构建参考集,我们将在各个数据集之间识别"锚点"。首先,我们将合并后的对象拆分为一个列表,每个数据集都作为元素。

代码语言:javascript
复制
data("panc8")
pancreas.list <- SplitObject(panc8, split.by = "tech")
pancreas.list <- pancreas.list[c("celseq", "celseq2", "fluidigmc1", "smartseq2")]

在找到锚点之前,我们执行标准的预处理,并单独识别每个变异基因。

代码语言:javascript
复制
for (i in 1:length(pancreas.list)) {
    pancreas.list[[i]] <- NormalizeData(pancreas.list[[i]], verbose = FALSE)
    pancreas.list[[i]] <- FindVariableFeatures(pancreas.list[[i]], selection.method = "vst", nfeatures = 2000, 
        verbose = FALSE)
}

整合 3个 胰岛细胞数据集

接下来,我们使用FindIntegrationAnchors()识别锚点。在这里,我们将其中三个对象整合到到参考集中(使用第四个对象作为查询数据集来演示映射)。

  • 我们使用所有默认参数来识别锚点。
代码语言:javascript
复制
reference.list <- pancreas.list[c("celseq", "celseq2", "smartseq2")]
pancreas.anchors <- FindIntegrationAnchors(object.list = reference.list, dims = 1:30)

然后,我们将这些锚点传递到函数IntegrateData()中,该函数返回 Seurat 对象。

  • 返回的对象将包含一个新的Assay,它包含一个整合所有细胞的(或"批次校正后")表达矩阵,使他们能够共同分析。
代码语言:javascript
复制
pancreas.integrated <- IntegrateData(anchorset = pancreas.anchors, dims = 1:30)

运行IntegrateData()后,Seurat对象将包含一个新的Assay,具有整合表达矩阵。请注意,原始值(未校正值)仍存储在"RNA"Assay,因此您可以来回切换。

然后,我们可以使用这种新的整合矩阵进行下游分析和可视化。在这里,我们对整合数据进行归一化,运行 PCA,并使用 UMAP 可视化结果。可以看出,整合数据集按细胞类型而不是按技术进行聚类。

代码语言:javascript
复制
library(ggplot2)
library(cowplot)
library(patchwork)
# switch to integrated assay. The variable features of this assay are automatically set during
# IntegrateData
DefaultAssay(pancreas.integrated) <- "integrated"
# Run the standard workflow for visualization and clustering
pancreas.integrated <- ScaleData(pancreas.integrated, verbose = FALSE)
pancreas.integrated <- RunPCA(pancreas.integrated, npcs = 30, verbose = FALSE)
pancreas.integrated <- RunUMAP(pancreas.integrated, reduction = "pca", dims = 1:30, verbose = FALSE)
p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "tech")
p2 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, repel = TRUE) + 
    NoLegend()
p1 + p2

使用整合的参考集的对细胞类型注释

Seurat 还支持将参考数据集(或元数据)投影到查询对象上。虽然许多方法都是保守的(这两个程序都是从识别锚点开始),但数据转移和整合之间有两个重要区别:

  1. 在数据转移中,Seurat 不会校正或修改查询数据。
  2. 在数据转移中,Seurat 有一个选项(默认设置),将参考的 PCA 结构投影到查询集上,而不是学习与CCA 的共有结构。我们通常建议在 scRNA-seq 数据集之间投影数据时使用此选项。

找到锚点后,我们使用TransferData()根据参考数据对查询数据进行注释。TransferData()返回带有预测 ID 和预测分数的矩阵,我们可以将其添加到查询数据中。

代码语言:javascript
复制
pancreas.query <- pancreas.list[["fluidigmc1"]]
pancreas.anchors <- FindTransferAnchors(reference = pancreas.integrated, query = pancreas.query, 
    dims = 1:30)
predictions <- TransferData(anchorset = pancreas.anchors, refdata = pancreas.integrated$celltype, 
    dims = 1:30)
pancreas.query <- AddMetaData(pancreas.query, metadata = predictions)

因为我们有完整的整合分析的原始标签注释,因此我们可以评估预测的细胞类型注释与参考集的匹配程度。在此示例中,我们发现细胞类型分类存在高度一致性,超过 96% 的细胞被正确标记。

代码语言:javascript
复制
pancreas.query$prediction.match <- pancreas.query$predicted.id == pancreas.query$celltype
table(pancreas.query$prediction.match)

## 
## FALSE  TRUE 
##    21   617

为了进一步验证这一点,我们可以检查特定胰岛细胞群的一些传统细胞类型标记。请注意,即使其中一些细胞类型仅由一个或两个细胞(如 epsilon 细胞)表示,我们仍然能够正确地对它们进行分类。

代码语言:javascript
复制
table(pancreas.query$predicted.id)

## 
##             acinar activated_stellate              alpha               beta 
##                 22                 17                253                256 
##              delta             ductal        endothelial              gamma 
##                 22                 30                 12                 18 
##         macrophage               mast            schwann 
##                  1                  2                  5
代码语言:javascript
复制
VlnPlot(pancreas.query, c("REG1A", "PPY", "SST", "GHRL", "VWF", "SOX10"), group.by = "predicted.id")

统一模式 UMAP 投影

在 Seurat v4 中,我们还能够将查询集投影到参考集 UMAP 结构上。这可以通过计算参考UMAP模型,然后调用MapQuery()

代码语言:javascript
复制
pancreas.integrated <- RunUMAP(pancreas.integrated, dims = 1:30, reduction = "pca", return.model = TRUE)
pancreas.query <- MapQuery(anchorset = pancreas.anchors, reference = pancreas.integrated, query = pancreas.query, 
    refdata = list(celltype = "celltype"), reference.reduction = "pca", reduction.model = "umap")

现在,我们可以同时可视化参考组和查询组细胞。

代码语言:javascript
复制
p1 <- DimPlot(pancreas.integrated, reduction = "umap", group.by = "celltype", label = TRUE, label.size = 3, 
    repel = TRUE) + NoLegend() + ggtitle("Reference annotations")
p2 <- DimPlot(pancreas.query, reduction = "ref.umap", group.by = "predicted.celltype", label = TRUE, 
    label.size = 3, repel = TRUE) + NoLegend() + ggtitle("Query transferred labels")
p1 + p2

参考资料

[1]参考该文: https://satijalab.org/seurat/articles/integration_introduction.html

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-07-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 单细胞天地 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 单细胞参考映射简介
  • 数据集预处理
  • 整合 3个 胰岛细胞数据集
  • 使用整合的参考集的对细胞类型注释
  • 统一模式 UMAP 投影
    • 参考资料
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档