前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >一文读懂scRNA-seq数据分析(建议收藏)

一文读懂scRNA-seq数据分析(建议收藏)

作者头像
简说基因
发布2024-03-22 12:21:28
1150
发布2024-03-22 12:21:28
举报
文章被收录于专栏:简说基因简说基因

Galaxy生信云平台(UseGalaxy.cn)整合了所有主流的单细胞数据分析工具,如 Seurat, Scanpy, Monocle3等,用户不需要安装各种软件,也不需要考虑计算资源,只需要上传数据,点击鼠标即可以完成单细胞数据分析工作。本文来介绍单细胞数据分析的一些基础理论知识。

当我们进行单细胞数据分析时,应该始终从质量控制步骤开始,首先清理数据,以确保数据足以回答研究的问题。在此步骤之后,通常会继续进行定位(比对)或基因组组装步骤,具体取决于是否有参考基因组可供使用。

一些相关问题

1.样本与样本之间是如何进行比较的?

2.单个细胞是如何被捕获的?

3.Bulk RNA-seq与scRNA-seq的差异?

4.聚类为什么重要?

学习目标

1.理解单细胞RNA测序(scRNA-seq)在测序与扩增过程中的潜在挑战及其克服策略

2.了解分析中存在的不同变异类型及其控制方法

3.掌握降维的概念,以及相关降维的实施方法

4.熟悉主要的聚类技术及其应用场景

关键点

1.单细胞RNA测序数据在进行数据分析之前需要大量的预处理操作

2.具有类似基因表达谱的细胞需要与其他细胞群组进行比较,以便于对细胞群组的特征和差异进行分析。

3.单细胞RNA测序中存在可检测性问题(Detectability issues),例如RNA的稀疏性、样本处理的差异、噪音干扰等。因此,在所有分析阶段都需要仔细考虑这些问题,以确保结果的准确性和可靠性。

4.聚类分析是单细胞RNA-Seq中不可或缺的一部分,它有助于确定细胞和了解细胞之间的相互关系和功能。

一、普通转录组测序(Bulk RNA-Seq)与单细胞测序(scRNA-Seq)

(1)普通转录组测序(Bulk RNA-Seq)

普通转录组测序(Bulk RNA-seq)是提取组织、器官、群细胞的Total RNA进行测序,用于分析组织或细胞总体的RNA组成。该方法旨在揭示整个样本中所有基因的表达水平,而不是单个细胞。

(2)单细胞转录组测序(scRNA-Seq)

单细胞转录组测序(scRNA-seq)是在单个细胞水平上构建每个细胞的基因表达谱,旨在揭示单个细胞内的基因表达水平,了解细胞异质性和功能多样性。

二、细胞捕获与技术重复——如何准备测序样本?

(1)测序样本的准备

注:

1.Bulk RNA-Seq: 每一个组织切片被视为一个样本,可以取多个切片进行分析,因此可以进行重复实验以提高可靠性。

2.scRNA-Seq: 每一个细胞被视为一个样本,由于每一个细胞都是唯一的,因此无法进行重复实验。

(2)单细胞分离操作

1、手动移液器

手动移液器是一种利用细长的玻璃管吸取细胞的实验工具。手动移液器的使用步骤如下:

I.吸取细胞:使用细长的玻璃管通过手动移移液器吸取细胞。

II.保持管中压力:在玻璃管中保持适当的压力,以确保成功吸取细胞并避免液体漏出

III.转移到新环境:将吸取的细胞通过手动移液器转移到新的实验环境中。

IV.释放管中压力:将细胞转移到目标位置后,释放玻璃管中的压力,使得细胞能够自由释放到新环境中

该过程需要重复进行数百次,每次只能吸取一个细胞,因此会存在一定的误差和耗时。

2、自动移液系统——流式细胞仪

为了提高效率和减少误差,开发出了自动移液系统。其中一个例子是流式细胞仪(flow cytometry)。流式细胞仪分选系统通过将细胞沿窄道随液流传送,使其单个通过,从而实现高通量的分选过程。

特点:

  • 流道足够窄,确保一次只能通过一个细胞。
  • 液体的流动性使得高通量处理成为可能。

该系统通过激光探测技术对每个细胞进行筛选,从而获取其特定性值,包括细胞大小、类型、散射特性以及荧光标记等:

细胞大小和类型:通过激光散射,可以获取细胞的前向散射和侧向散射信息,从而确定细胞的大小和类型

细胞在激光照射下的散射行为是流式细胞仪中关键的参数之一,尤其是在前向散射和侧向散射的测定中,能够提供关于细胞大小、形态和表面结构等信息。

当细胞大小小于激光波长比率(约400纳米)的时候,其散射表现具有一定特征:

  • 低强度和高不一致性散射:由于细胞尺寸相对较小,激光与细胞之间的相互作用引发的散射强度较低,且存在较大的不一致性。

测量参数:

  • 前向散射(FSC):测量激光前向散射,反映细胞在激光束前方的散射强度,提供细胞大小的信息。
  • 侧向散射(SSC):测量激光测向散射,反映细胞在激光束侧方的散射强度,用于揭示细胞的表面形态和复杂性。

荧光标记:利用荧光标记和细胞表面标记物(如CD标记),可以识别并分辨不同类型的细胞。

细胞分选:根据激光检测的特性,流式细胞仪可以将目标细胞从混合物中分选出来,随后可将其分离道独立的测序环境中进行后续的基因组学分析。

前向散射(FSC)

测量方向:前向散射是沿着激光路径测量的,即激光束的前方。

测量信息:前向散射的强度与细胞的直径成正比,因此能够提供关于细胞大小的信息。

适用场景:前向散射在区分免疫细胞等细胞类型方面具有较好的效果。

侧向散射(SSC)

测量方向:与激光成90度角,沿着细胞路径测量。

测量信息:测向散射的强度远弱于前向散射。测想散射的强度与细胞内颗粒的粒度成正比,因此能够提供关于细胞颗粒度的信息。

荧光激活细胞分选(FACS)

细胞表面标记:FACS通过检测细胞表面的特定标记,如细胞表面蛋白,实现细胞的快速分选。

为每个细胞使用荧光标记,标记可以是正向的(表示细胞表达该蛋白)或负向的(表示细胞未表达该蛋白)

CD标记:通过检测细胞的CD标记,可以确定细胞是否激活,以及其表达的特定蛋白。

CD标记分析:通过将不同CD标记相互对比,可以绘制图谱,从而区分不同CD标记的细胞群体。通过设定阈值,可以选择性地分离和分析特定细胞子群。

三、条形码标记(Barcoding cells)

  • 对于每一个细胞,则添加细胞条形码,从而区分来自不同细胞的转录本。
  • 对于每一个细胞的转录本,添加唯一分子标识符(UMIs)

细胞条形码:用于标识和追踪单个细胞的转录本,确保每个转录本都能够与其来源的细胞相关联。

UMIs(Unique Molecular Identifiers): 用于衡量转录本扩增水平,通过比较同一基因中具有相同UMI标签的其他转录本,提供更准确的扩增度量。

(1)测序中的扩增问题

1、聚合酶链式反应(PCR)

  • 能够将DNA单链进行复制扩增
  • 当测序池中存在足够多的序列读取时,PCR效果更好。当测序池中得到读取较少时,可能会遗漏。
  • 低读取覆盖度可能会导致扩增偏向于某一侧。

在测序前进行PCR扩增是为了增加样本中的DNA数量,使其达到测序仪可以检测的水平。然而扩增过程中会存在偏向性扩增的情况,即某些DNA片段的扩增效果较好(红色),而其他片段的效果较差(蓝色)。

2、PCR扩增偏差的解决方法

在PCR扩增过程中,不同的转录本可能以不同的速率扩增。为了区分相同基因的多个拷贝,每个转录本在扩增钱都加上一个独一无二的标识码,即唯一分子标识符(UMIs)。之后在同一PCR反应中被扩增成DNA片段,生成的DNA片段携带了一个共同的序列,其中包含了UMI标识和序列标签。

通过对序列标识和UMI进行解析和比对,可以计算每个UMI-DNA分子出现次数。以此消除PCR扩增带来的偏差,获得更准确、更可靠的测序结果。

以上图为例:

  • PCR扩增后的reads数量:红色序列 6;蓝色序列 3
  • 根据基因和UMI进行分组后如下:
  • 去重复后的计数(只需计算唯一标识符UMI的数量,即为扩增前的基因数量)

在转录本水平上对UMIs进行去重复,从而实现对真实转录本丰富度的估计。

四、质量控制:解决背景噪声问题

如图所示,每一行为一个基因,每一列代表一个细胞。

  • 每一个细胞的特征数和文库大小应该遵循正态分布。
  • 最小-最大过滤能够有效剔除数据分布中的尾部异常值。

(1)标准化方法(Normalization)

普通转录组测序(bulk RNA-seq)存在高覆盖度特征,其基因表达的中位数较高。

单细胞转录组测序(scRNA-seq)则具有较低的测序深度,其基因表达中位数为0。

标准化方法:SCRAN算法

《Pooling across cells to normalize single-cell RNA sequencing data with many zero counts.》 Lun et al. 2016

SCRAN算法

SCRAN方法是一种基于去卷积的标准化方法,用于处理单细胞RNA测序数据。简而言之,该方法是针对包含多个细胞的池子进行的,通过对细胞求和,可以减少问题零值的出现。然后对汇总的大小因子进行去卷积,以推断出单个细胞的大小因子。主要步骤如下:

1.计算所有细胞的文库大小(Library Size), 即每个细胞中RNA测序读数的总和,用来衡量每个细胞中RNA的丰度

2.计算Pseudo参考细胞的平均文库大小,即所有细胞的文库大小的平均值。

3.将细胞分成奇数文库大小(图中红色)与偶数文库大小(图中蓝色)的两组。这一步旨在考虑到文库大小的奇偶性可能会影响到标准化效果。

4.将这两组细胞按照文库大小排序并放置在环形结构的两侧。

5.将环形结构中相邻的k个细胞作为一个池(pool)。这样可以确保每个池中的细胞在一定程度上相似,有利于后续的标准化处理。

6.对于每个池,首先计算池中所有细胞的文库大小之和,然后通过将这个和除以伪参考细胞的文库大小来得到一个大小因子(size factor)。这个大小因子用于矫正池中细胞的文库大小。

7.对于每个细胞,确定它属于哪一个池子,并利用该池的大小因子建立一个线性模型。然后利用这个线性模型来估算这个细胞的大小因子,从而进行标准化处理。

(2)导致数据Variation的主要因素

Wanted vs Unwanted Variation

Wanted variation: 指感兴趣的生物学变化,通常包括想要研究的因素,例如不同细胞类型之间的基因表达差、细胞状态的变化以及与生物学功能相关的其他因素。也可以理解为细胞之间的异质性,识别特定细胞亚型或者功能上重要的基因,以及探索与生物学现象相关的基因表达模式。

Unwanted variation: 分析中希望排除或校正的因素,其可能会干扰我们对想要的生物学变化的准确解释。主要包括:

  • 实验技术造成的变异(Technical Variation),例如,批次效应以及文库大小的差异。
  • 生物学变异(Biological Variation):细胞内部古有的随机性或者噪声(Intrinsic cell noise)。在单细胞测序数据中,每个细胞的基因表达水平受到多种因素的影响,包括细胞的生理状态、代谢活性、基因调控等。这些因素导致了细胞内的基因表达存在一定程度的随机性。

Biological Variation: Transcription Bursting

单细胞数据分析中可能存在混杂变异(Confounding Variation),即实验中可能导致数据中出现的干扰因素或者混杂因素,可能会误导我们对结果的解释。

其中转录爆发(Transcription Bursting)是一种可能导致混杂变异的因素,其指的是基因转录不是持续进行的,而是以爆发的方式进行。这意味着在某些时刻,基因会以较高的速率转录,而在其他时刻则额可能没有转录活动。例如右侧图中M时期的转录水平是G1时期的两倍。

转录爆发时一种常见的现象,而在传统的bulk RNA-seq中往往会掩盖这种现象。这是因为传统的bulk RNA-seq测量的是整个细胞群体的平均转录水平,而无法捕捉到单个细胞内部的转录活动。

Technical Variation: Library Size Variation

在单细胞测序中,不同细胞的RNA文库大小可能存在差异(Library Size Variation)。

扩增偏倚(Amplification Bias): 在扩增过程中,不同的转录本被扩增的程度不同,即存在一种偏倚。这可能导致某些转录本的表达量被高估,而其他转录本则被低估。这中扩增偏倚可以通过使用UMIs来减轻。

丢失事件(Dropout Events):在单细胞测序中,有时某些基因在某些细胞中被错误地未检测到,即发生丢失事件。这可能由于技术上的限制,例如低表达水平的基因很难被检测到,或者由于反应条件的变化而导致某些基因未被充分捕获。该问题可以通过更好的捕获方法和数据归一化(Normalization)技术来解决。

五、不同细胞之间的关系衡量

如何描述细胞之间的关系以及如何对细胞进行聚类分析?

单细胞的数据特征:

  • 数千个细胞(1000s of cells)
  • 数万个基因(10,000 of Genes)
  • 数据维度:约10,000个维度以及1,000个观察值。(每一个细胞都是一个数据点,而每个基因的表达水平则构成了数据点的维度)
  • 每个细胞在不同基因上的表达可能会相似,也可能存在很大的差异。因此如何对细胞和细胞之间的基因表达差异进行表征?

研究目标:

基于部分基因上的表达模式,寻找细胞之间的分组或聚类。(选择部分基因来进行细胞之间的关系分析的目的是为了降低数据维度,以减少计算负担,同时也可以关注哪些在特定生物学过程中可能更为重要的基因。)

通过在这个基因子集上对细胞进行聚类或者分组,研究人员可以发现这些基因的表达模式下,哪些细胞更为相似,哪些细胞存在差异。

(1)生成距离矩阵 Distance Matrix

Distance Matrix

可以基于距离矩阵来分析单细胞测序数据中细胞之间的相似性或差异性。

这里基因x细胞的计数矩阵中,每一行代表一个基因,每一列代表一个细胞。在这个N维空间中,每个基因都被看作是一个维度,而每个细胞在这些维度上都有一个对应的计数值。这种表示方式使得我们能够将每个细胞在基因表达模式上的差异或相似性抽象为空间中的距离。然后使用距离公式,如欧氏距离,曼哈顿距离等,计算每对细胞之间的距离,从而得到距离矩阵。例如,上图中的矩阵根据欧式距离计算可得:

(2)基于KNN算法聚类

Relatedness of Cells: KNN

得到距离矩阵后,随后采用KNN算法来分析细胞之间的关联性。在KNN中,对于每个细胞,都会找到距离它最近的K个细胞,然后与之建立连接。这个过程中可以讲细胞之间的关联性以图的形式呈现出来。

(3)降维(Dimensional Reduction)

Dimensional Reduction

将高维数据降低到一个更容易理解的低维度空间中。

约束条件:即要保留高纬数据的图拓扑结构。也就是说,在低维空间中,尽可能地保留细胞之间在高维空间中的相对位置关系。例如,在原始的高维空间中细胞A与细胞D之间很远,但是与细胞B很近,那么在降维后的低维空间中,细胞A与细胞D之间应该仍然保持较远的距离,而与细胞B之间保持较近的距离。

(4)聚类 Clustering

1.2D Projection: 将细胞的基因表达在一个二维空间中投影展示。其中的每个点代表一个细胞,不同的细胞用不同的颜色标记。

2.区分细胞类型:

a)通过聚类分析将细胞分成不同的簇,每个簇代表一个细胞类型或者亚型。

b)在每个簇中,可以使用差异表达分析来确定哪些基因在这个特定类型的细胞中表达量显著高于其他类型的细胞。这些基因被称为差异表达(DE)基因。

c)为每个细胞类型确定标志性基因。标志性基因是在特定细胞类型中高度表达的基因,通常被用来标识和区分不同的细胞类型。一旦确定了每个聚类中的DE基因,就可以进一步筛选出在该聚类中高度表达的基因,这些基因可能是该细胞类型的标志性基因。

3.细胞谱系的推断:在生物学上,神经干细胞是一种多能的细胞类型,它们有能力自我更新并且能够分化成各种类型的神经系统细胞,如神经元和神经胶质细胞。在单细胞测序数据中,可以追踪神经干细胞向成熟细胞类型的分化过程。构建谱系树是通过综合考虑细胞簇的熵和它们之间的接近性来实现的。

a)熵(Entropy):通常用来衡量细胞群集内部的异质性或者不确定性。较高的熵表示该群集内部的细胞表达模式更加混杂或者不一致,而较低的熵则表示该群集内部的细胞具有更相似的表达模式。

b)簇之间的接近性(Proximity of cluster):反映了不同细胞类型之间的相似性或者关联性。通常,接近的细胞群集在谱系树中会被连接到一起,反映了他们可能共享相似的祖先细胞或者分化路径。

聚类的两种类型:Hard(硬聚类)和Soft(软聚类)

硬聚类 Hard Clustering:

1.硬聚类中,每个细胞仅被分配到一个唯一的群集中。这意味着每个细胞被认为是完全属于其所属的单个细胞类型或群集,而不与其他类型的细胞混合。

2.硬聚类通常表现为在数据空间中明确分隔的、独立的细胞群集。这意味着在可视化中,不同的细胞类型之间存在清晰的边界,它们之间有着明显的差异。这种清晰的分隔有助于确定不同细胞类型之间的关系,并且更容易识别每个细胞类型的特征。

软聚类 Soft Clustering:

1.在软聚类中,细胞不再被硬性地分配到唯一的群集,而是可能在多个群集之间共享。换句话说,细胞可以被认为具有一定的不确定性,可能同时属于多个细胞类型的混合装。

2.软聚类可能会导致群集之间的模糊性,即不同细胞类型之间的界限不太清晰。在可视化中,各个群集可能会相互混合,而不是明确分隔。

3.软聚类可能反映了细胞在基因表达模式上的复杂性和多样性,或者可能表示在特定的数据集中存在一些混合细胞类型或过渡状态。

细胞表型具有一定的连续性(Continuous Phenotypes)

红细胞的发育过程

细胞在发育过程中,并不会突然从一个特定细胞类型转变为另一个类型,而是会逐渐改变其形态和功能。例如图中红细胞的发育过程是一个随时间变化的过程。开始时,网状细胞可能处于一个相对不成熟的状态,然后随着时间的推移,逐渐转变为成熟的红细胞。这种过程可能涉及到细胞形态的变化、基因表达的调控以及功能转变等。因此,细胞表型不是离散的,而是连续变化的。

离散表达模式

连续表达模式

聚类是连续动态的过程。对于单细胞数据集,通常使用主成分分析(PCA)等传统方式进行聚类,但是这些方式在处理连续性的数据时可能会表现不佳。因此,通常使用流行学习算法(Manifold learning algorithms)来学习数据的连续结构。流行学习算法可以更好地捕捉数据中的复杂结构和连续变化,有助于更准确地划分苏聚集。

其他聚类算法还有:K-均值(K-means)、K-中值(K-median)、层次聚类、社团划分等。

基于K-means的聚类

1.初始化:首先随机选择k个初始位置作为聚类中心点

2.迭代步骤:

a)计算距离:计算每个细胞与每个聚类中心点之间的距离。

b)分配聚类:将每个细胞分配到距离最近的聚类中心点所属的聚类中。

c)更新聚类中心:将每个聚类中心点的位置更新为该聚类中所有细胞的平均位置。

3.收敛;重复以上步骤直到聚类中心点的位置不再发生显著变化,活着达到了预定的迭代次数。

基于K-median的聚类

  • 与K-means相似,不同之处在于更新聚类中心的方式。
  • 在K-median中,将每个聚类中所有细胞的中位数作为新的聚类中心点,而不是使用平均值。这样的做法使得聚类中心点对异常值的影响更小,因此K-medians对异常值的鲁棒性更强。

层次聚类(Hierarchical Clustering)

层次聚类

1.识别最相似的两个聚类:首先根据距离矩阵找到距离最近的两个数据点。

2.合并最相似的聚类:将这两个最相似的聚类合并为一个新的聚类。合并的过程可以是通过计算这两个聚类之间的平均距离或者其他距离度量来实现。

3.迭代重复第二个步骤。每次合并两个最相似的聚类,直到所有数据点都被聚类到一个大的簇中位置。这个大的簇代表了整个数据集的整体结构。

4.生成树状图(Dendrogram):树状图显示了每个聚类之间的距离关系,通过不同的高度来表示聚类的合并顺序。树状图可以用来识别不同尺度的聚类结构,并且可以根据需要截取不同的层次来获得不同粒度的聚类结果。

社团划分(Community Clustering): Louvain社区聚类算法

Louvain社区聚类算法是一种用于发现图中紧密连接组的方法。该算法通过最大化社区内部连接(即节点之间的连接)并最小化外部连接(即社区和社区之间的连接)来识别社区结构。

例如:图中节点“pink”与其他节点存在两种不同的合并方案。对这两种合并后的结果进行评估。其中合并过程会改变节点之间的连接方式,从而影响内部连接和外部连接的数量。可以看到如图中第二种合并方案可以导致最小的外部连接(External: 3),因此采取第二种合并方案。

随机选取一个节点(细胞),然后将其放入邻居节点的聚类中,并评估合并操作对于内部连接和外部连接的影响。如果该操作会引起内部连接增加而外部连接减少,则接受这个合并。反之,则拒绝这个合并操作,重新选择另一个节点。

通过这个过程,Louvain算法可以不断地调整节点之间的聚类,以最大化内部连接并最小化外部连接,从而得到更加合理和紧密的社区结构。

六、总结

1. 单细胞数据集通常具有大量的细胞数据,并且这些数据通常是稀疏的,即大部分基因在大多数细胞中没有表达。因此,对于单细胞数据进行质量过滤和归一化非常重要。

2. 特征选择和降维操作可以降低数据的复杂性,从而使得后续的分析更为有效和可行。

3. 聚类分析有助于确定不同细胞类型及其之间的关系。

4. 单细胞RNA测序是一个统计驱动的领域,即对于数据的分析和解释是基于统计学方法和原理的。

5. 存在许多不同的方法来分析单细胞数据集,包括聚类分析、差异表达分析、路径分析等。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 简说基因 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档