专栏首页单细胞天地sc-ATAC-seq细胞类型注释策略

sc-ATAC-seq细胞类型注释策略

分享是一种态度

作者 | 周运来

男,

一个长大了才会遇到的帅哥,

稳健,潇洒,大方,靠谱。

一段生信缘,一棵技能树,

一枚大型测序工厂的螺丝钉,

一个随机森林中提灯觅食的津门旅客。

解释任何单细胞测序数据的起点都是对给定数据集中的细胞簇进行注释。由于缺乏专门设计的工具以及在单细胞ATAC-seq数据中使用不直观的顺式和跨式调控元素(unintuitive cis- and trans-regulatory ),因此单细胞ATAC-seq数据中的细胞类型标注具有挑战性。本技术说明探索并演示了三种不同的策略,这些策略对于在单个细胞ATAC-seq数据中标注细胞类型所需的生物信息学专业知识的数量有所不同。

人骨髓单核细胞(BMMCs)和荧光激活细胞分选(FACS)富集CD34+造血祖细胞(AllCells),按照10x方案——单细胞ATAC测序的细胞核分离(文献CG000169)进行处理。单细胞ATAC文库按照《10X单细胞试剂试剂盒使用指南》(文档CG000168)编写,按每个细胞2 -5万个原始reads进行测序。测序数据通过cellranger-atac count (v1.1.0)管道进行处理,使用cellranger-atac aggr管道整合BMMCs和CD34+细胞数据。

下面概述的细胞类型注释策略是单细胞ATAC-seq数据中可能的细胞类型注释方法,不是cell Ranger ATAC软件的一部分。

Strategy 1. Annotation Using Cis-Regulatory Elements

使用Loupe cell Browser 3.1.1分析10321个bmmc和9084个CD34+细胞的ATAC-seq单胞数据。对CD34+祖细胞、CD4+ T细胞、CD8+/NK细胞、B细胞、单核细胞/树突状细胞进行细胞类型标记基因启动子可及性模式的可视化标记(图1)。通过将 fragments.tsv.gz 加载到peak viewer并根据每个窗口的cell类型导出剪切站点分布,从而从Loupe中导出特定于cell类型的剪切站点。

使用启动子注释细胞类型。A.已知细胞类型的标记基因的启动子可及性及后续的细胞类型注释。颜色表示所选启动子的log转换计数,红色=高值。A.从Loupe Cell Browser中导出切割位点的序列文件。NK:自然杀伤细胞;Mono:单核细胞;DC:树突细胞

Strategy 2: Annotation Using Cell Type-Specific Feature Set

第二种细胞类型注释方法使用一组用户定义的分子特征,包括细胞类型特异性峰值、细胞类型标记的基因激活分数或具有已知调控作用的转录因子的motif可达性。例如,为了使用细胞类型特定的峰值来注释细胞类型,我们对来自10,321个bmmc和9,084个CD34+细胞的单个细胞ATAC-seq数据应用了一个评分方案,该方案计算了细胞类型特定的峰值在背景可达性水平上的富集情况。

一套统一策划了130万年的峰值Epinomics来自29个FACS-sorted免疫细胞类型定义这些细胞类型的ATAC资料,基于以前公布的数据(1)细胞特定类型的山峰被定义为前200名丰富峰所选的所有其他细胞类型的细胞类型。背景被定义为500组200个随机选择的峰值。生成最大富集分数的细胞类型被标注到细胞中(图2)。

图2。使用cell型特定的功能集来注释。所选细胞类型的细胞类型富集评分分布。B.在单细胞ATAC-seq数据中,BMMCs + CD34+细胞中鉴定出19种主要的细胞类型。tSNE投影直接来自Cell Ranger ATAC管道。cell标签的大小按每个类型的丰度进行显示.

CLP: Common lymphoid progenitors CMP: Common myeloid progenitor DC: Dendritic cells Ery: Erythroid GMP: Granulocyte-macrophage progenitor HSC: Hematopoietic stem cells LMPP: Lympho-myeloid primed progenitor MEP: Megakaryocyte-erythroid progenitor Mono: Monocytes MPPs: Multipotent progenitor cells Neut: Neutrophills NK: Natural killer cells

Strategy 3: Annotation Using RNA Sequencing Data as Reference

为了使用RNA-seq数据标注细胞类型,使用Chromium单细胞ATAC溶液从胚胎和成年小鼠脑组织(见下文)中生成单细胞ATAC-seq数据。胚胎和成年小鼠脑组织的参考RNA-seq数据集来自于先前的研究(2,3)。Seurat v3.0和Signac包(4)用于将单个单元的ATAC-seq数据和单个单元的RNA-seq数据合并到一个共享的简化维中,并基于RNA-seq数据中预注释单元的距离预测ATAC-seq数据的cell类型(图3)。

Query (single cell ATAC) •P50 adult mouse cortex (3,927 cells) •E18.5 mouse cortex, hippocampus & ventricular zone (4,115 cells)

Reference (single cell RNA) •P30-40 mouse primary visual cortex & anterior lateral motor cortex (21,814 cells) •P0 mouse cortex (7,614 cells)

图3。使用RNA-seq数据作为参考的注释。使用预先注释的RNA-seq数据注释来自成年和胚胎小鼠皮层的ATAC-seq数据的UMAP图分别显示在A和C中。来自成年和新生小鼠皮层的预先注释的RNA-seq数据的UMAP图分别显示在B和D中。该集成显示了参考RNA-seq和ATAC-seq数据之间的大量重叠。在成年小鼠皮层中发现了20多种不同的细胞类型,在E18.5小鼠皮层组织中发现了18种主要的细胞类型。主要细胞类型在成体和胚状体中的比例。

Validation of Cell Type Annotation Using RNA Sequencing Data as Reference

  • Validation Using Gene Activity Scores

为了验证细胞类型注释,我们使用了R package Cicero(5)来计算来自胚胎和成年小鼠组织的单个细胞ATAC-seq数据的基因活性(GA)评分。为了计算GA分数,峰至基因注释和tSNE坐标(作为reduced_coordinates)直接从Cell Ranger ATAC输出中获得。使用strategy 3识别出的兴奋性神经元、抑制性神经元和各种胶质细胞类型的已知标记(图3C),并对其进行检查以确定正确的注释(图4A-B)。

UMAP单细胞投射的GA分数分布证实了策略3的结果。例如,胚胎期E18.5的神经元前体细胞标记Eomes的可达性高于成年期P50, SVZ区域富集较强(图4A),验证了策略3的结果。

  • Validation Using Transcription Factor (TF) Deviation Scores

chromVAR(6)计算的转录因子(Transcription factor, TF)偏差分数可以测量TF活性,可以作为另一个验证细胞类型标注的来源。为了测量全局TF活性,我们从Cell Ranger ATAC管道的TF-barcode矩阵中获取输入计数矩阵,并选择JASPAR motif数据库作为输入motif数据库。然后使用建议的chromVAR工作流计算策略3(图3A)中来自成人组织的单个细胞ATAC-seq数据中识别的细胞类型的TF偏差分数(图4C)。

细胞类型特异性转录因子,如星形胶质细胞中的Noto和小胶质细胞中的Spi1,在相应的细胞类型中表现出排他的活性(图4C)。抑制神经元亚型中Mef2c TF偏差分数的比较证实了之前关于Pvalb亚型中Mef2c活性升高的报道(7)

image

图4。cell 注释的验证。A. E18.5 UMAP单细胞投射中的基因活性分布。B. UMAP单细胞投射中P50基因活性分布。红色阴影=高基因活性水平,灰色=启动子和邻近增强子检测不到的可及性。C.按细胞类型划分的成体TF活性。Y轴是转录因子活性评分,基于从chromVAR TF偏差z分数转换而来的p值的-log10。

讨论

利用细胞类型特异性顺式调控元件进行的细胞类型注释显示,在不同的细胞亚群中,启动子的可及性明显丰富,从而可以识别骨髓单核细胞中的主要细胞类型。在pseudo-bulk profile 中,簇中的所有细胞都聚集成一个单一的轨迹,在基因标记启动子附近的染色质可达性显示了一个更复杂的模式。如,CD4启动子表现出多个富集峰,其中只有一个具有CD4+ t细胞特异性,而其他的高峰在单核细胞和干细胞群体中也表现出很强的可达性。

使用细胞类型特定的特征集对细胞类型进行注释是对传统的基于基因标记的策略的扩展,在这种策略中,标记基因的列表被可解释的特征集所取代,从而提供了合并批量数据、转录因子基序位点或预先注释的基因集的灵活性。精细的细胞类型注释更详细地说明了CD34+祖细胞群的子结构,包括多能干细胞群(HSC, MPP)和承诺谱系祖细胞(CMP)。MEP、GMP和CLP(图2A-B)。先祖群体的子结构也可以与来自不同谱系的终末分化细胞相匹配,形成完整的发育轨迹,这一点在《应用注释——用单细胞ATAC-Seq破译表观遗传调控》(LIT000055)中得到了更详细的探讨。

这种无监督的、基于整合的策略将单个细胞的ATAC-seq数据嵌入到参考的单个细胞RNA-seq数据中,并且不需要任何标记基因的先验知识。可以通过计算基因和转录因子活性评分来验证注释(图4A-C)。基于集成的策略还可以扩展为任何类型的单细胞数据的注释。例如,可以使用预先注释的单细胞RNA数据集轻松地对单细胞RNA-seq数据进行注释。此外,整合的数据为描述增强子和目标基因之间的调控关系以及最终的基因调控网络提供了一个起点。

综上所述,我们证明了针对单个细胞ATAC-seq数据的三种互补细胞类型注释策略。所选择的cell 类型注释方法将取决于对感兴趣的示例类型或类似的示例类型可用的知识或数据。第一种策略是使用已知的cell类型标记,这是最简单的,并且可以在Loupe中很容易地显示出来。第二和第三种策略需要额外的生物信息处理和互补的参考数据集(例如,批量ATAC-seq或单细胞RNA-seq)。

本文分享自微信公众号 - 单细胞天地(sc-ngs),作者:周运来

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-05-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • sc-RNA-seq Key issues guide

    单细胞技术(single-cell technologies )越来越被生命科学家广泛地应用在不同物种、不同器官的研究上。在2019年之前基于单细胞测序技术,特...

    生信技能树jimmy
  • 单细胞测序基础知识

    有限稀释技术(Limiting dilution technique)是利用移液管稀释分离细胞,这种方法的主要缺点是效率低下,成功率20%左右。

    生信技能树jimmy
  • 多能性及多细胞动物的起源

    当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴...

    生信技能树jimmy
  • JAVA内存学习总结

    从最开始学习java的时候,老师就讲过,java主要分为堆和栈两个内存区域,随着不断的学习和深入,也对java的内存有了更细致的了解。本文是个人通过以前老师所讲...

    Java架构师历程
  • [剑指offer] 合并两个排序的链表

    输入两个单调递增的链表,输出两个链表合成后的链表,当然我们需要合成后的链表满足单调不减规则。

    尾尾部落
  • Linux 命令(73)—— ps 命令

    版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。 ...

    Dabelv
  • python代码实现图片噪声去除

    今天来给大家分享下怎么做图片的噪声去除。平时其实大家上网都能遇到这样的场景,就是输入讨厌验证码,怎么都输不对。验证码现在可以说是千奇百怪、分外妖娆,为啥要做成这...

    IT派
  • 每日五分钟,玩转JVM(三):线程独占区

    如果我们对计算机组成有所了解,那么我们一定会知道在计算机中有一块儿特殊的区域,称之为寄存器,寄存器包括了指令寄存器和程序计数器,这两样位于CPU中,作为程序运行...

    山禾说
  • 在飓风灾害中检测感知到的情绪(CS CL)

    自然灾害(如飓风)每年影响数百万人,造成广泛的破坏。人们最近通过社交媒体网站(如Twitter)与更大的社区分享他们的情感和感受。因此,这些平台已经成为理解和感...

    奥斯特洛夫斯萌
  • (三十八) 初遇python之NamedTuple命名元组

    各位读者大大们大家好,今天学习python的NamedTuple命名元组,并记录学习过程欢迎大家一起交流分享。

    亚乐记

扫码关注云+社区

领取腾讯云代金券