前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >🤪 Seurat | 完美整合单细胞测序数据(部分交集数据的整合)(一)

🤪 Seurat | 完美整合单细胞测序数据(部分交集数据的整合)(一)

作者头像
生信漫卷
发布2023-02-24 14:01:28
1.4K0
发布2023-02-24 14:01:28
举报
文章被收录于专栏:R语言及实用科研软件

1写在前面

之前我们介绍了SeuratHarmonyrliger三个包,用于3'5'数据合并的方法。🤒 但有时候我们会遇到两个datasets只有部分重叠,这和之前介绍的方法就有一点不同了。🤨

2用到的包

代码语言:javascript
复制
rm(list = ls())
library(Seurat)
library(SeuratDisk)
library(SeuratWrappers)
library(patchwork)
library(harmony)
library(rliger)
library(RColorBrewer)
library(tidyverse)
library(reshape2)
library(ggsci)
library(ggstatsplot)

3示例数据

这里我们提供13’ PBMC dataset1whole blood dataset。😉

代码语言:javascript
复制
umi_gz <- gzfile("./GSE149938_umi_matrix.csv.gz",'rt')  
umi <- read.csv(umi_gz,check.names = F,quote = "")

matrix_3p    <- Read10X_h5("./3p_pbmc10k_filt.h5",use.names = T)

创建Seurat对象。🧐

代码语言:javascript
复制
srat_wb <- CreateSeuratObject(t(umi),project = "whole_blood")
srat_3p <- CreateSeuratObject(matrix_3p,project = "pbmc10k_3p")
rm(umi_gz)
rm(umi)
rm(matrix_3p)
srat_wb
srat_3p

4修改metadata

为了方便后续分析,这里我们对metadata进行一下注释修改。😁

代码语言:javascript
复制
colnames(srat_wb@meta.data)[1] <- "cell_type"
srat_wb@meta.data$orig.ident <- "whole_blood"
srat_wb@meta.data$orig.ident <- as.factor(srat_wb@meta.data$orig.ident)
head(srat_wb[[]])

5基础质控

做一下标准操作,计算线粒体基因核糖体基因。🥳

代码语言:javascript
复制
srat_wb <- SetIdent(srat_wb,value = "orig.ident")

srat_wb[["percent.mt"]] <- PercentageFeatureSet(srat_wb, pattern = "^MT-")
srat_wb[["percent.rbp"]] <- PercentageFeatureSet(srat_wb, pattern = "^RP[SL]")
srat_3p[["percent.mt"]] <- PercentageFeatureSet(srat_3p, pattern = "^MT-")
srat_3p[["percent.rbp"]] <- PercentageFeatureSet(srat_3p, pattern = "^RP[SL]")

p1 <- VlnPlot(srat_wb, ncol = 4,
              features = c("nFeature_RNA","nCount_RNA","percent.mt","percent.rbp"))

p2 <- VlnPlot(srat_3p, ncol = 4,
        features = c("nFeature_RNA","nCount_RNA","percent.mt","percent.rbp"))

p1/p2

6交集基因

whole blood dataset使用的是Cell Ranger GRCh38-2020A进行注释,与3’ PBMC dataset差的比较多,所以我们先看一下有多少共同基因吧。🤩

代码语言:javascript
复制
# table(rownames(srat_3p) %in% rownames(srat_wb))
common_genes <- rownames(srat_3p)[rownames(srat_3p) %in% rownames(srat_wb)]

length(common_genes)

7过滤基因

我们设置一下过滤条件,把一些表达过低过高的细胞去掉,以及一些线粒体基因过高的细胞(细胞状态不佳)。✌️

代码语言:javascript
复制
srat_3p <- subset(srat_3p, subset = nFeature_RNA > 500 & nFeature_RNA < 5000 & percent.mt < 15)
srat_wb <- subset(srat_wb, subset = nFeature_RNA > 1000 & nFeature_RNA < 6000)

srat_3p <- srat_3p[rownames(srat_3p) %in% common_genes,]
srat_wb <- srat_wb[rownames(srat_wb) %in% common_genes,]

8数据整合

8.1 合并为list

代码语言:javascript
复制
wb_list <- list()
wb_list[["pbmc10k_3p"]]   <- srat_3p
wb_list[["whole_blood"]]  <- srat_wb

8.2 Normalization与特征基因

代码语言:javascript
复制
for (i in 1:length(wb_list)) {
  wb_list[[i]] <- NormalizeData(wb_list[[i]], verbose = F)
  wb_list[[i]] <- FindVariableFeatures(wb_list[[i]], selection.method = "vst", nfeatures = 2000, verbose = F)
}

8.3 寻找Anchors并整合数据

代码语言:javascript
复制
wb_anchors <- FindIntegrationAnchors(object.list = wb_list, dims = 1:30)
wb_seurat  <- IntegrateData(anchorset = wb_anchors, dims = 1:30)
rm(wb_list)
rm(wb_anchors)

9整合效果可视化

9.1 整合前

代码语言:javascript
复制
DefaultAssay(wb_seurat) <- "RNA"
wb_seurat <- NormalizeData(wb_seurat, verbose = F)
wb_seurat <- FindVariableFeatures(wb_seurat, selection.method = "vst", nfeatures = 2000, verbose = F)
wb_seurat <- ScaleData(wb_seurat, verbose = F)
wb_seurat <- RunPCA(wb_seurat, npcs = 30, verbose = F)
wb_seurat <- RunUMAP(wb_seurat, reduction = "pca", dims = 1:30, verbose = F)

DimPlot(wb_seurat,reduction = "umap") + 
   scale_color_npg()+
  plot_annotation(title = "10k 3' PBMC and whole blood, before integration")

9.2 整合后

代码语言:javascript
复制
DefaultAssay(wb_seurat) <- "integrated"
wb_seurat <- ScaleData(wb_seurat, verbose = F)
wb_seurat <- RunPCA(wb_seurat, npcs = 30, verbose = F)
wb_seurat <- RunUMAP(wb_seurat, reduction = "pca", dims = 1:30, verbose = F)

DimPlot(wb_seurat, reduction = "umap") + 
  scale_color_npg()+
  plot_annotation(title = "10k 3' PBMC and white blood cells, after integration")

10降维与聚类

10.1 聚类可视化

代码语言:javascript
复制
wb_seurat <- FindNeighbors(wb_seurat, dims = 1:30, k.param = 10, verbose = F)
wb_seurat <- FindClusters(wb_seurat, verbose = F)

ncluster <- length(unique(wb_seurat[[]]$seurat_clusters))

mycol <- colorRampPalette(brewer.pal(8, "Set2"))(ncluster)

DimPlot(wb_seurat,label = T, reduction = "umap",
        cols = mycol, repel = T) +
  NoLegend()

10.2 具体查看及可视化

代码语言:javascript
复制
count_table <- table(wb_seurat@meta.data$seurat_clusters, 
                     wb_seurat@meta.data$orig.ident)
count_table

#### 可视化
count_table %>% 
  as.data.frame() %>% 
  ggbarstats(x = Var2, 
             y = Var1,
             counts = Freq)+
  scale_fill_npg()

最后祝大家早日不卷!~


本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-31,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信漫卷 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1写在前面
  • 2用到的包
  • 3示例数据
  • 4修改metadata
  • 5基础质控
  • 6交集基因
  • 7过滤基因
  • 8数据整合
    • 8.1 合并为list
      • 8.2 Normalization与特征基因
        • 8.3 寻找Anchors并整合数据
        • 9整合效果可视化
          • 9.1 整合前
            • 9.2 整合后
            • 10降维与聚类
              • 10.1 聚类可视化
                • 10.2 具体查看及可视化
                领券
                问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档