前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >单细胞专题 | 9.如何人工注释单细胞类群?

单细胞专题 | 9.如何人工注释单细胞类群?

作者头像
DoubleHelix
发布2022-12-16 18:56:11
5.9K0
发布2022-12-16 18:56:11
举报
文章被收录于专栏:生物信息云

单细胞专题 | 1.单细胞测序(10×genomics技术)的原理 单细胞专题 | 2.如何开始单细胞RNASeq数据分析 单细胞专题 | 3.单细胞转录组的上游分析-从BCL到FASTQ 单细胞专题 | 4.单细胞转录组的上游分析-从SRA到FASTQ 单细胞专题 | 5.单细胞转录组的上游分析-从FASTQ到count矩阵 单细胞专题 | 6.单细胞下游分析——不同类型的数据读入 单细胞专题 | 7.单细胞下游分析——常规分析流程案例一 单细胞专题 | 8.单细胞类型注释之SingleR包详解

1.细胞类型的marker基因

单细胞人工注释依赖于marker gene的调查,简单来说,就是收集各种细胞类型的标志物,根据标志物在不同细胞亚群中的表达来判断细胞类型。细胞标志物的收集可以来源于文献或者数据库。

下面这些是一些来自文献的标志物信息

1.1 文献

文献:Acquired cancer resistance to combination immunotherapy from transcriptional loss of class I HLA

再比如2018年发表于science杂志的文章就是自己根据文献进行整理的:Single-cell transcriptomes from human kidneys reveal the cellular identity of renal tumors.

再如:人肾脏组织主要细胞类型marker基因列表(data from CellMarker)

1.2 数据库

panglaodb:https://panglaodb.se/index.html

CellMarker :http://xteam.xbio.top/CellMarker/index.jsp

2.人工注释案例

我们继续以我们前面的文章保存的数据为例:

代码语言:javascript
复制
library(SingleR)
library(Seurat)
setwd("H:/MedBioInfoCloud/analysis/scRNAseq/BLCA/GSE130001/")
load('data/sce.output.merge.GSE130001.Rdata')

我们从CellMarker 数据库中查看膀胱组织中的标志物信息:

可视化这些基因在不同亚群中的表达:

代码语言:javascript
复制
genes_to_check <- c("ALDH1",
                    "CD133", "OCT4",
                    "CD133",
                    "CD24", "CD44", "CD47",
                    "CD44v6","EMA",
                    "SOX2",
                    "CD34",
                    "EMA",
                    "N-cadherin",
                    "UGP85",
                    "CD44", "CK20", "CK5")
library(stringr) 
library(ggplot2)
genes_to_check = unique(intersect(rownames(sce),genes_to_check))
genes_to_check
P13 <- DotPlot(sce, features = genes_to_check,
                         assay='RNA'  )  + coord_flip()
P14 <- VlnPlot(object = sce, features =genes_to_check,log =T )
P15 <- FeaturePlot(object = sce, features=genes_to_check )
ggsave(filename = "data/mk.pdf",P13/P14/P15,height = 15,width = 10)

上次singleR注释的结果:

根据标志物的表达情况,首先,可以很确定的是第8个细胞亚群为Endothelial cell。因为Endothelial cell的标志物是CD34,但是这个正常的膀胱组织细胞类型,这个也很正常,取的肿瘤组织(CD45-),含有个别正常细胞正常。其他的大部分类群都是Bladder Cancer 细胞。但是上次使用singleR注释时,第12个亚群是NK细胞,查看一下CD45的表达。

代码语言:javascript
复制
MedBioInfoCloud: DotPlot(sce, features = "CD45",
+         assay='RNA'  )
Error in FetchData.Seurat(object = object, vars = features, cells = cells) : 
  None of the requested variables were found: CD45

CD45在数据质控的时候已经被过滤掉了【本身样本CD45阴性】,作者文章也说有了,有CD45阴性的免疫细胞。所以我个人觉得可以将12这个细胞类群删除,用于后续的分析。

这里我们就暂且按照注释的细胞重新命名一下就行了:

代码语言:javascript
复制
###直接修改类群的值
sce3 <- sce
new.cluster.ids <- c(rep("Bladder Cancer",8),"Endothelial cell",rep("Bladder Cancer",4))

names(new.cluster.ids) <- levels(sce3)
sce3 <- RenameIdents(sce3, new.cluster.ids)

DimPlot(sce3, reduction = "tsne", label = TRUE, pt.size = 0.5) + NoLegend()

相对来说,该数据集中是流式筛选后测序的数据,所以这里的注释还是可靠的,后续的分析可以结合SingleR包注释的结果和人工审核的结果一起判断,用于后续的分析,这里可以只选择上皮细胞进行后续的分析,因为这个类群是很确定的癌细胞。下面这个图是来自一篇使用了该数据集的一篇生信文章【PMID:35769986】中的结果图,作者使用的是SingleR包注释,也的确有NK细胞,但它的过滤条件和我这里教程的不一样,作者还融合了其他数据集。但整体上来说,自己注释的方法就是这么一个流程。

3.总结

总之,人工注释依赖于自己的知识背景和marker基因的收集。实际上我做的大量肿瘤单细胞数据分析项目里面,需要有一些背景知识哦!比如背诵如下所示各个细胞亚群高表达量基因的列表:

代码语言:javascript
复制
# T Cells (CD3D, CD3E, CD8A), 
# B cells (CD19, CD79A, MS4A1 [CD20]), 
# Plasma cells (IGHG1, MZB1, SDC1, CD79A), 
# Monocytes and macrophages (CD68, CD163, CD14),
# NK Cells (FGFBP2, FCG3RA, CX3CR1),  
# Photoreceptor cells (RCVRN), 
# Fibroblasts (FGF7, MME), 
# Endothelial cells (PECAM1, VWF). 
# epi or tumor (EPCAM, KRT19, PROM1, ALDH1A1, CD24).
#   immune (CD45+,PTPRC), epithelial/cancer (EpCAM+,EPCAM), 
# stromal (CD10+,MME,fibo or CD31+,PECAM1,endo) 

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MedBioInfoCloud 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.细胞类型的marker基因
    • 1.1 文献
      • 1.2 数据库
      • 2.人工注释案例
      • 3.总结
      相关产品与服务
      数据库
      云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档