上期我们分享了单细胞测序(scRNA-seq)的基本概念,样品的制备以及细胞的捕获。😁
本期我们继续介绍一下转录本定量分析、实验设计、批次效应和混杂因素。🤒
在开始前我们还是先思考几个问题,如下:👇
Q1: 不同
protocol有什么区别,优缺点是什么? Q2: 在进行scRNA-seq的实验设计时,要考虑哪些问题? Q3: 与bulk RNA-seq的数据相比,scRNA-seq数据有什么不同?
目前我们常见的转录本定量方法有两种,full-length和tag。🧐
full-length实现整个转录本的count,而tag的只capture5'或3'端。🤨
scRNA-seq的full-length文库构建与bulk RNA-seq相似,如SMART-seq2。
从理论上讲,full-length应该可以提供一个均匀的转录本coverage,但有时在coverage上还是有一定的偏差。
full-length一大优势就是可以检测到不同剪接体(splice variants)。😯
Full-length RNA library preparation for Illumina sequencing.
如果使用tag的方法进行scRNA-seq,则只对转录本的一端(3'或5')进行测序。
目前大多数scRNA-seq都是基于tag的,如10x Chromium,
UMI(unique molecular identifiers)结合,提高定量的准确性。isoforms。Example of 3’ bias in the gene body coverage, after aligning the sequencing reads to the transcriptome.
Note! 这个图展示了不同细胞中average coverage的情况,有明显的3' bias。
而且3个细胞群明显离群,可能是RNA降解导致的。
由于在PCR的过程中,扩增是指数级的,可能会导致扩增不均,从而高估基因的表达量。🫠
为了解决这个问题,cell barcodes会标记上一段随机核苷酸序列(UMI),而这个UMI是唯一的。
在读取count时,将UMI纳入,从而更准确的计算转录本的丰度。🤫
Protocol overview of 3’ libraries using the 10X Chromium protocol.
这个可能要根据大家具体的实验目的来进行选择,常用的就是3’的方法。🧐
但5'也有其优势,如可以获得有关转录起始位点(TSS)的信息,从而探索不同细胞之间是否存在不同的TSS。😘
Single Cell 3' v3.1(Dual Index) Gene Expression Library
Single Cell 5' v2 Gene Expression Library
首先我们要明确的就是选择不同方法还是要基于你的科学问题,你的研究目的。😐
低通量的方法与高通量的方法相比具有更高的灵敏度,如10x Chromium。
另一方面,低通量方法很难capture到样本中一些比较稀有的细胞类型,导致细胞群的特征不完整。😤
测序完成后,每个library代表一个细胞,而不是一群细胞。🤩
所以,每个细胞都是独一无二的,在单细胞水平上没有办法进行 "生物学重复"。😕
我们一般需要进行相似性聚类,然后在相似细胞群之间进行比较。
批次效应(batch effects)是一定要考虑到的问题,即使用不同的技术对相同的样本进行scRNA-seq,也会有批次效应,可以通过normalise来减少批次效应。
The same cell population was sequenced with three different single-cell protocols (colours).
整个scRNA-seq的过程中,应避免实验因素(如治疗、表型或疾病等)、准备样品时间、测序时间等对结果的影响。
control和diseased组织进行scRNA-seq,如果每天只能处理10个样本,最好是每天做5个control和5个diseased的样本,而不是一天准备所有control的样本,另一天准备所有diseased的样本。另一个需要考虑到的就是样本的可重复性。
circadian changes)的影响,我们最好也在同一个时间点进行取样。Illustration of a confounded (top panels) and balanced (bottom panels) designs.
最后祝大家早日不卷!~