前言
单细胞ATAC-seq技术,顾名思义就是在单细胞水平上的ATAC-seq技术,它兼具单细胞技术的高分辨率及ATAC-seq的优势,是目前研究基因表观组学的热门技术。ATAC-seq的全称是Assay for transposase-accessible chromatin with high-throughput sequencing,是基于高通量测序对开放性染色质(open chromatin)进行研究的技术。
1
开放染色质
在真核生物中,核DNA并不是裸露的,而是与组蛋白结合后压缩形成紧密的染色体高级结构。DNA在复制转录时,需要将DNA的紧密结构打开,这部分打开的染色质,就是开放染色质;开放染色质允许其他调控因子与之结合,这一特性被称为染色质的可及性,染色质的可及性被认为与转录调控密切相关。
2
研究开放染色质的传统方法
传统研究开放染色质的方法有MNase-seq, DNase-seq, FAIRE-seq和ChIP-seq等,ChIP-seq一次只能获取特定转录因子结合的区域信息,而MNase-seq, DNase-seq和FAIRE-seq方法则费时费力,重复性较差。2013年,美国Stanford大学的William Greenleaf教授研发了一种全新的方法,即ATAC-seq,ATAC-seq在克服传统方法缺点的同时也保证了结果的可靠性,逐渐被大家所接受。
3
单细胞ATAC-seq原理
ATAC-seq技术利用转座酶Tn5容易结合在开放染色质的特性,在切割获取DNA的同时加入接头,经过PCR扩增后即可进行高通量测序,获得全基因组范围内开放染色质的序列信息(图1)。
图1 转座酶Tn5作用示意图
单细胞ATAC-seq测序则是在此基础上与单细胞技术联合起来,例如联合单细胞组合标记测序技术(single-cell combinatorial indexed sequencing),在转座酶切割、PCR时引入index,达到识别单个细胞的目的(图2)。
图2 单细胞分离原理
4
数据分析过程
高通量测序之后就是数据分析,首先对测序数据进行质量控制,如去除接头和重复序列等;之后使用bwa, bowtie2等工具与参考基因组进行比对;根据比对结果,利用MASC2等软件进行peak calling,peak指的是开放染色质富集的区域,这些区域在转录调控等方面可能发挥作用。得到每个细胞的peak分布情况后,进行peak注释,细胞分群,peak差异分析,转录因子富集分析等(图3)。
图3 ATAC分析流程
除此之外,还可以根据不同需求进行不同的分析,例如对细胞亚群进行注释、绘制细胞亚群的分化轨迹、结合GWAS研究细胞类型与疾病的关系。
单细胞ATAC-seq数据还能与其他组学数据进行联合分析,从而更好理解细胞的功能。
5
分析结果概览
细胞质控(图4)会根据细胞内fragment在peak的占比识别真正的细胞,去除非细胞的barcode,保证后续分析的正确。
图4 细胞fragment分布图
Peak注释结果如图5,根据与基因转录起始位点(TSS)的距离,peak可以被注释为3类:启动子区域(promoter), 末端区域(distal)和基因间区(intergenic)。
图5 peak注释结果
细胞分群结果(图6)是根据细胞间peak分布情况的异同进行分群。
图6 细胞分群tsne图
6
应用
单细胞ATAC-seq是研究表观遗传学调控的利器,该技术经常被应用于疾病发生、细胞发育等方面。
Darren A C等人利用单细胞ATAC-seq技术绘制了雄性小鼠13个组织的染色质可及性图谱,发现了85类染色质可及性及约40万个潜在的调节元件,为了解哺乳动物的染色质可及性打下了基础。
首先根据单细胞的染色质可及性的异同将所有细胞分为85个亚群,并对亚群进行注释,得到小鼠的染色质可及性图谱;在此基础上,研究染色质可及性的组织特异性,以内皮细胞为例,发现内皮细胞可分为9个亚类,不同组织中的亚类组成有较大差异(图7)。作者还将单细胞ATAC-seq与GWAS(全基因组关联分析)结合起来,揭示了细胞类型与人类疾病的相关性。
图7 内皮细胞在组织中的分布
2018年发表在《cell》上题为“Integrated Single-Cell Analysis Maps the ContinuousRegulatory Landscape of Human Hematopoietic Differentiation”的文章,也是基于单细胞ATAC-seq技术。作者对造血分化过程进行研究,发现了造血分化过程中主要的调控因子GATA1, BATF, CEBPB等,从而揭示了人类造血分化的调节特性与动力学特征。
7
参考文献
[1]Buenrostro J D , Giresi P G , Zaba L C , et al. Transposition of native chromatin for multimodal regulatory analysis and personal epigenomics[J]. Nature Methods, 2013, 10(12):1213-1218.
[2]Stuart T, Butler A, Hoffman P, et al. Comprehensive Integration of Single-Cell Data. Cell, 2019, 177(7):1888-1902.e21.
[3]Vitak S A , Torkenczy K A , Rosenkrantz J L , et al. Sequencing thousands of single-cell genomes with combinatorial indexing[J]. Nature Methods, 2017, 14(3):302-308.
[4]Darren A C, Andrew J H, Delasa A, et al. A Single-Cell Atlas of In Vivo Mammalian Chromatin Accessibility. Cell, 23 August 2018, 174(5):1309-1324.
[5]Buenrostro J D, Corces M R, Lareau C A, et al. Integrated single-cell analysis maps the continuous regulatory landscape of human hematopoietic differentiation[J].Cell, 2018.