前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Garnett—细胞类型注释工具

Garnett—细胞类型注释工具

作者头像
生信技能树jimmy
发布2020-03-27 13:59:08
2.5K1
发布2020-03-27 13:59:08
举报
文章被收录于专栏:单细胞天地

分享是一种态度

作者 | 周运来

男,

一个长大了才会遇到的帅哥,

稳健,潇洒,大方,靠谱。

一段生信缘,一棵技能树,

一枚大型测序工厂的螺丝钉,

一个随机森林中提灯觅食的津门旅客。

前言

Garnett是一个从单细胞表达数据中实现自动细胞类型分类的软件包。Garnett的工作方式是获取单细胞数据和细胞类型定义(marker)文件,并训练一个基于回归的分类器。一旦被训练成一个针对某一组织/样本类型的一个分类器,它就可以应用于从相似组织中对未来的数据集进行分类。除了描述训练和分类功能,这个网站的另一个目标是成为一个存储以前训练出来的分类器仓库。

安装Garnett

R> 3.5 依赖Monocle(3),注意:Garnett 不再支持monocle2官网这样写真的很困惑,因为后面的例子很多还是基于monocle2的。

代码语言:javascript
复制
1# First install Bioconductor and Monocle
2if (!requireNamespace("BiocManager"))
3    install.packages("BiocManager")
4
5BiocManager::install()
6BiocManager::install(c("monocle"))
7
8# Next install a few more dependencies
9BiocManager::install(c('DelayedArray', 'DelayedMatrixStats', 'org.Hs.eg.db', 'org.Mm.eg.db'))
代码语言:javascript
复制
1install.packages("devtools")
2devtools::install_github("cole-trapnell-lab/garnett")
3
4library(garnett)

Garnett工作流有两个主要部分,每个部分的详细描述如下:

  • Train/obtain the classifier: 要么下载现有的分类器,要么训练自己的分类器。为了训练,Garnett解析一个标记文件,选择一组训练细胞,然后训练一个多项分类器来区分细胞类型。
  • Classify cells: 接下来,Garnett将分类器应用于一组细胞,以生成cell类型。Garnett还可以选择将分类扩展到类似的细胞,以生成一组独立的分群扩展类型。

使用预先训练的分类器

我们已经为各种生物和组织生成了一系列预先训练的分类器。如果您的数据类型存在一个预先训练好的分类器,我们建议您尝试一下。可用的分类器列表可以在这里找到(https://cole-trapnell-lab.github.io/garnett/classifiers)。我们希望在生成新的分类器时不断地更新和添加它们。我们也接受由其他人产生的分类器-请提交你所做的任何分类器并帮助建立社区!关于如何提交分类器的详细信息可以在这里找到(https://cole-trapnell-lab.github.io/garnett/docs/#submitting-a-classifier)。

目前已有的分类器模型:

根据你的组织类型下载一个吧。

使用一个预先训练好的分类器,首先下载分类器,然后将它加载到你的R会话使用:

代码语言:javascript
复制
1classifier <- readRDS("path/to/classifier.RDS")

因为Garnett 建立在 Monocle(http://cole-trapnell-lab.github.io/monocle-release) 上,所以Garnett 的数据保存在CellDataSet (CDS)类的对象中。这个类派生自Bioconductor ExpressionSet类,它为那些分析过生物微阵列实验的人提供了一个常见的接口。Monocle提供了关于如何生成输入cds的详细文档here(http://cole-trapnell-lab.github.io/monocle-release/docs/#the-celldataset-class)。

例如,Garnett包含一个来自PBMC 10x V1表达式数据的小数据集.

代码语言:javascript
复制
 1# load in the data
 2# NOTE: the 'system.file' file name is only necessary to read in
 3# included package data
 4#
 5mat <- Matrix::readMM(system.file("extdata", "exprs_sparse.mtx", package = "garnett"))
 6fdata <- read.table(system.file("extdata", "fdata.txt", package = "garnett"))
 7pdata <- read.table(system.file("extdata", "pdata.txt", package = "garnett"),
 8                    sep="\t")
 9row.names(mat) <- row.names(fdata)
10colnames(mat) <- row.names(pdata)
11
12# create a new CDS object
13#pd <- new("AnnotatedDataFrame", data = pdata)
14#fd <- new("AnnotatedDataFrame", data = fdata)
15pbmc_cds <- new_cell_data_set(as(as.matrix(mat), 'sparseMatrix'),
16                              cell_metadata = pdata,
17                              gene_metadata = fdata)
18
19# generate size factors for normalization later
20#pbmc_cds <- estimateSizeFactors(pbmc_cds)#

有了分类器之后,就可以使用classify_cells函数对细胞进行分类了!关键的点是:

  • cds : 是包含您的基因表达数据的CDS对象(见上面)。
  • classifier:这就是您在上面获得的garnett_classifier
  • db: db : 是用于转换基因id的生物导体注释db类包的必要参数。例如,对于人类使用org.Hs.eg.db。在Bioconductor网站上可以找到相关的包装。使用library(db)加载您选择的db。如果您的物种没有带注释的db类包,请参见这里。
  • cluster_extend:这告诉Garnett是否创建第二组任务,将分类扩展到相同群中的细胞。您可以在名为“garnett_cluster”的列的pData表中提供分群的id,也可以让Garnett分群并填充。

警告:如果不提供“garnett_cluster”列,并将一个非常大的数据集的cluster_extend设置为TRUE,则此函数的运行速度将大大降低。为了方便起见,Garnett将它计算的集群保存为“garnett_cluster”,因此如果再次运行该函数,速度会更快。

  • cds_gene_id_type 这个告诉garnett你的cd对象中基因id的格式。它应该是列(db)中的一个值。默认是“ENSEMBL”。

classify_cells函数在pData表中返回一个(如果cluster_extend = TRUE,则返回两个)包含Garnett分类的新列的输入CDS对象。

代码语言:javascript
复制
 1pbmc_classifier<-hsPBMC
 2library(org.Hs.eg.db)
 3pbmc_cds <- classify_cells(pbmc_cds, pbmc_classifier,
 4                           db = org.Hs.eg.db,
 5                           cluster_extend = TRUE,
 6                           cds_gene_id_type = "SYMBOL")
 7
 8head(pData(pbmc_cds))
 9
10DataFrame with 6 rows and 7 columns
11                           tsne_1           tsne_2
12                        <numeric>        <numeric>
13AAGCACTGCACACA-1  3.8403149909359 12.0841914129204
14GGCTCACTGGTCTA-1 9.97096226657347 3.50539308651821
15AGCACTGATATCTC-1 3.45952940410281 4.93527280576176
16ACACGTGATATTCC-1 1.74394947394641 7.78267061846286
17ATATGCCTCTGCAA-1 5.78344829514223 8.55889827553495
18TGACGAACCTATTC-1 10.7928530485958 10.5852739146963
19                       Size_Factor   FACS_type garnett_cluster
20                         <numeric> <character>       <logical>
21AAGCACTGCACACA-1 0.559181445161514     B cells              NA
22GGCTCACTGGTCTA-1 0.515934033527584     B cells              NA
23AGCACTGATATCTC-1 0.698028398302026     B cells              NA
24ACACGTGATATTCC-1 0.815631008885519     B cells              NA
25ATATGCCTCTGCAA-1  1.11532798424345     B cells              NA
26TGACGAACCTATTC-1 0.649469901028841     B cells              NA
27                   cell_type cluster_ext_type
28                 <character>      <character>
29AAGCACTGCACACA-1     B cells          B cells
30GGCTCACTGGTCTA-1     B cells          B cells
31AGCACTGATATCTC-1     B cells          B cells
32ACACGTGATATTCC-1     B cells          B cells
33ATATGCCTCTGCAA-1     B cells          B cells
34TGACGAACCTATTC-1     Unknown          Unknown
35
36table(pData(pbmc_cds)$cell_type)
37 B cells           CD34+     CD4 T cells     CD8 T cells 
38            321               1              89              52 
39Dendritic cells         T cells         Unknown 
40             12             160             165 
41
42table(pData(pbmc_cds)$cluster_ext_type)
43
44        B cells     CD4 T cells Dendritic cells         T cells 
45            373             200               3             200 
46        Unknown 
47             24 
代码语言:javascript
复制
1qplot(tsne_1, tsne_2, color = cell_type, data = as.data.frame(pData(pbmc_cds))) + theme_bw()
代码语言:javascript
复制
1qplot(tsne_1, tsne_2, color = cluster_ext_type, data = as.data.frame(pData(pbmc_cds)))+ theme_bw()

上面的第一个图显示了Garnett的cell类型分配,第二个图显示了Garnett的集群扩展类型分配。您可以看到,T细胞子集(CD4和CD8)在这些集群中并没有很好地分离,因此在计算集群扩展类型时,Garnett将层次结构退回到更可靠的“T细胞”分配。 因为这个示例数据来自FACS排序的细胞样本,所以我们可以将Garnett的分配与“真正的”细胞类型进行比较。

Troubleshooting

Common marker file errors

这里,我们提供了一些常见的标记文件错误和Garnett分类的潜在结果的例子。对于所有面板,分类器在10x PBMC version 2 (V2)数据上进行训练,然后使用分类器对上面所示的10x PBMC version 1 (V1)数据进行分类。第一个面板由基于facs的10x单元类型分配着色。其余的面板由Garnett集群无关的细胞类型分配着色。

  • A cell type is missing from the marker file。在PBMC标记文件中,不包括T细胞定义(面板2)。在原稿中讨论的例外情况是,缺失的细胞类型(即表达NK标记FCGR3A的NKT细胞)中存在描述现有细胞类型的特征。
  • A cell type is defined but includes no good specific markers. 在PBMC标记文件中,只使用CD4而不是CD3来定义T细胞(面板3)。在这种情况下,我们发现Garnett只标记了T细胞的一个子集,而未标记其余细胞。
  • A gene that is not specific and widely expressed is used to define a cell type. 如果我们将MALAT1 (PBMC数据集中表达最多的转录本)添加到T细胞定义(面板4)中,在这种情况下,我们会发现每个细胞类型最终都在真细胞类型和T细胞之间混合分配。在另一种情况下,包含一个广泛表达的非特异性基因可能会导致Garnett根本找不到足够的训练样本,因为它会认为所有细胞都是模糊的(即它们会表达其他标记加上非特异性的)。
  • A cell type definition includes genes that are specific to another cell type. 是这样一个定义在哪里真正的“错误”,即如果B细胞(CD79A)是最好的标记添加到T细胞的定义(面板5)。我们发现B细胞集群混合细胞类型任务的B细胞和T细胞,但是剩下的细胞类型的标签主要不变。

My species doesn't have an AnnotationDbi-class database If your species doesn't have an available AnnotationDbi-class database, then Garnett won't be able to convert among gene ID types. However, you can still use Garnett for classification. Set db = 'none' and then be sure that you use the same gene ID type in your marker file as your CDS object. When db = 'none' Garnett ignores the arguments for gene ID type.

代码语言:javascript
复制
 1citation("garnett")
 2
 3# Hannah A. Pliner, Jay Shendure & Cole Trapnell (2019). Supervised classification enables rapid annotation of cell atlases. Nature Methods
 4#
 5# A BibTeX entry for LaTeX users is
 6#
 7#   @Article{,
 8#     title = {Supervised classification enables rapid annotation of cell atlases},
 9#     journal = {Nature Methods},
10#     year = {2019},
11#     author = {Hannah A. Pliner and Jay Shendure and Cole Trapnell},
12#   }
13#
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-10-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 单细胞天地 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 安装Garnett
  • 使用预先训练的分类器
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档