专栏首页生信菜鸟团混合到同一个10X样品里面的多个细胞系如何注释

混合到同一个10X样品里面的多个细胞系如何注释

我们七月份的学徒培养专注于单细胞数据处理,第一个学徒选择的文章很有意思,标题是:《Single-cell transcriptomic heterogeneity in invasive ductal and lobular breast cancer cells》,这个单细胞文章仅仅是单个10X样品,但是测8个细胞系,Number of cells:

  • MCF7 (n=977)
  • T47D WT (n=509)
  • T47D KO (n=491)
  • MM134 (n=439)
  • SUM44 (n=314)
  • BCK4 (n=512)
  • MCF10A (n=491)
  • HEK293T(n=881).

可以看到,不同细胞系,降维聚类分群后,泾渭分明。但是没办法从单个或者多个标记基因的角度来对细胞系进行命名:

标记基因不明显

可以看到不同细胞系各自的高表达量基因并不是非常特异性,不同细胞系仅仅是某些基因的表达高低而不是表达与否的差异。

我给学徒的建议是根据文章里面的描述,去CCLE数据库,以及GEO数据库,找到里面的各种细胞系的芯片或者测序的表达量矩阵,然后对这个单细胞降维聚类分群后的8个细胞亚群取表达量平均值。把全部的细胞系和全部的单细胞亚群的表达相关性矩阵(Pearson correlation coefficient)热图可视化即可。

首先拿到细胞亚群基因表达量平均值

使用 AverageExpression 函数即可:

sce <- readRDS("../step1_聚类/sce_all.Rds")
query <- AverageExpression(sce, group.by = "RNA_snn_res.0.2", 
                           features = rownames(reference) ,
                  slot = "data")
query <- as.data.frame(query[["RNA"]])
head(query)

如下所示 的矩阵,就是 细胞亚群基因表达量平均值 :

细胞亚群基因表达量平均值

然后 拿到多个细胞系的表达量矩阵,这个 epxr_reference.csv 是自己去 去CCLE数据库,以及GEO数据库,找到里面的各种细胞系的芯片或者测序的表达量矩阵哦,其中的艰难险阻,省略五千字。

如下所示 :

reference <- read.csv("../6个参考数据集/epxr_reference.csv",
                      row.names = 1)
reference <- textshape::column_to_rownames(reference, loc =1)  
head(reference)
colnames(reference)

sce_tmp <- CreateSeuratObject(counts = reference)
sce_tmp <- NormalizeData(sce_tmp)

reference <- as.data.frame(sce_tmp@assays[["RNA"]]@data)

细胞系表达量矩阵如下所示:

细胞系表达量矩阵

有了这两个数据集,就可以计算 相关性矩阵(Pearson correlation coefficient),代码如下 :

load(file = 'for_cor.Rdata')
head(reference)
head(query)
reference$X=rownames(reference)
query$X=rownames(query)
identical(query$X, reference$X)
data_merged <- dplyr::full_join(reference, query, by = "X")
head(data_merged)
data_merged <- textshape::column_to_rownames(data_merged, loc = 'X')
head(data_merged)

# step3.计算相关性
colnames(data_merged)
head(data_merged)
str(data_merged)
tmp=apply(data_merged, 2,as.numeric)
colnames(tmp)=colnames(data_merged)
rownames(tmp)=rownames(data_merged)

tt <- cor(tmp,
          method = "pearson")
heatmap(tt)
tt1 <- tt[1:12,13:20]
tt2 <- tt1[sort(rownames(tt1)),]

pheatmap::pheatmap(tt2) 

如下可视化 得到的 达相关性矩阵(Pearson correlation coefficient) :

达相关性矩阵(Pearson correlation coefficient) 的热图

是不是很容易看到各个亚群各自最相关的细胞系啊,就可以进行命名了!

手动注释如下:

# st ep4. 手动注释细胞类型------
# cluster0  MCF7
# cluster1  HEK293
# cluster2  T47D
# cluster3  BCK4 # 排除法
# cluster4  T47D
# cluster5  MCF10A
# cluster6  MM134
# cluster7  SUM44

可以看到,cluster2和cluster4都是T47D细胞系,这个时候需要根据CDH1基因表达量进行进一步区分。另外,cluster3 对应的 BCK4 也是没办法命名,因为我们整理好的细胞系矩阵里面本来就没有它。

原文方法描述

这个文献及其数据处理也会纳入我们的两个b站单细胞栏目,持续更新半年,基本上涵盖了大家需要的技能:

  • https://www.bilibili.com/video/BV1DK4y1X7bb/ 更新至第8篇,「生信技能树」100个单细胞文献解读(8/100)
  • https://www.bilibili.com/video/BV19Q4y1R7cu/ section 3已更新,「生信技能树」单细胞公开课2021

如果是简单的降维聚类分群,可以参考前面的例子:人人都能学会的单细胞聚类分群注释 ,我们演示了第一层次的分群。

本文分享自微信公众号 - 生信菜鸟团(bio_123456789),作者:生信技能树

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-07-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 单细胞混样测序至少可以区分性别

    一直在筹备专栏《100个单细胞转录组数据降维聚类分群图表复现》,挑选到一个很有意思的文章,是:《Single-Cell Transcriptional Prof...

    生信技能树
  • 混样的10X单细胞转录组

    最近有粉丝提到是否可以把多个样本混杂到一起建立一个10X单细胞转录组库进行测序后数据分析,的确是有这样的例子,比如我前些天在Twitter看到的发表在Nephr...

    生信技能树jimmy
  • 如果你觉得相关性热图不好看,或者太简陋

    就有粉丝提问,把单细胞亚群使用 AverageExpression 函数做成为了亚群矩阵,是不是忽略了单细胞亚群的异质性呢?毕竟每个单细胞亚群背后都是成百上...

    生信菜鸟团
  • 我的课题只有一个10x样本肿么办?

    什么情况下,我们会用尽全身力气来分析我们的10x单细胞转录组样本的数据呢,最有可能的场合是,我们只有一个样本,有可能是样本本身非常稀有,又或者我们的经费确实有限...

    生信技能树jimmy
  • 使用SingleR构建自定义细胞亚群数据库

    如何很多朋友留言问,为什么不使用现成的工具呢,比如SingleR就构建自定义细胞亚群数据库。我们当然知道这样的工具很好用,但是我们要分享的是技术细节,如果一切都...

    生信菜鸟团
  • 三个10X单细胞转录组样本CCA整合

    其中,我委婉的指出来了,那个文章对两个两个样本的10X单细胞转录组数据的整合是有问题的,不过他们文章发表期刊是 Immunity影响因子很高,二十多分,其实单细...

    生信技能树jimmy
  • 单细胞转录组数据分析并不一定要过于个性化

    所以我自己在2019年录制了两套不同层级的单细胞转录组数据分析视频教程,还配套了视频学习笔记,今年(2020)在培养学徒的过程中,我又安排学徒根据这两套视频精炼...

    生信技能树jimmy
  • 单细胞RNA-seq的设计和方法(一)

    Bulk vs scRNA-seq.png Bulk RNA-seq : 它测定的是一个大的细胞群体中的每一个基因的平均表达水平。对比较转录组学、找疾病标志物、...

    生信技能树jimmy
  • scRNA-seq—读入数据详解

    在量化基因表达之后,我们需要将该数据导入R,以生成用于执行QC的矩阵。在本课中,我们将讨论盘点数据可以采用的格式,以及如何将其读入R,以便我们可以继续工作流程中...

    生信技能树jimmy
  • 单细胞转录组数据处理之细胞亚群注释

    因为参数需要自己摸索和调整,所以其实拿到细胞亚群数量是因而而异的,取决于你前面降维的程度,分群的算法和参数。不过最重要的是拿到了不同细胞亚群后需要对它进行命名,...

    生信技能树jimmy
  • 单细胞转录组数据处理之细胞亚群比例比较

    这就是个性化分析阶段,这个阶段取决于自己的单细胞转录组项目课题设计情况,我们的介绍的各式各样的分析点,并不是通用的。比如如果要比较细胞亚群比例,就必须要有多个样...

    生信技能树jimmy
  • 10x单细胞的3个文件如果仅仅是提供了mtx呢

    如果是10x的单细胞公共数据,比如 GSE128033 和 GSE135893,就是10x数据集,随便下载其中一个,就能看到每个样本都是走流程拿到10x单细胞转...

    生信菜鸟团
  • 10X Genomics VDJ测序

    前面给大家简单的介绍了什么是免疫组库。今天小编给大家介绍一种研究免疫组库的方法。

    生信交流平台
  • 浸润性导管和小叶乳腺癌细胞的单细胞转录组异质性

    这个数据的研究目标是:To quantify ITH between cell lines, referred to as ICH (Inter-Cellula...

    生信技能树
  • 两个样品的10x单细胞转录组数据分析策略

    链接: https://www.sciencedirect.com/science/article/abs/pii/S1074761319302845

    生信技能树jimmy
  • 单细胞转录组测序中的批次效应知多少? (上)

    当然,这样做的第一件问题就是数据来自不同样本,实验室和实验的数据并不能“很好地混合”。数据不能很好的联合分析主要是基于细胞注释和使用UMAP 和/或 tSNE ...

    生信技能树
  • BRCA1和BRCA2基因敲除小鼠的单细胞转录组

    数据在 https://www.ncbi.nlm.nih.gov/bioproject/PRJNA632854 :

    生信技能树
  • 单细胞转录组测序中的批次效应知多少? (下)

    在上一篇文章中,作者曾写过过度处理批次效应的后果。这里可能会有些争议,他将对如何在不使用不知道具体原理的“批次效应矫正”工具的情况下处理批次效应给与一些建议。为...

    生信技能树
  • 单细胞大样本也不好发出去了

    比如,有一个研究团队(BGI-Shenzhen)做的是乳腺癌领域的三阴性乳腺癌的单细胞免疫微环境研究:

    生信技能树jimmy

扫码关注云+社区

领取腾讯云代金券