分享是一种态度
本课程学习目标 描述设计单细胞RNA-seq实验的最佳实践 描述单细胞RNA-seq分析的工作流程步骤 使用Seurat和相关工具来执行单细胞表达数据的分析,包括数据过滤,QC,整合(降维),聚类和标记识别
在整个人体组织中,细胞类型、状态和相互作用是非常多种多样的,为了更好的了解这些组织和存在的细胞类型,我们需要更高分辨率的技术,而scRNA-seq提供了在单个细胞水平上表达哪些基因的信息,恰好能满足我们的需求。
scRNA-seq_cell_diversity.png(图片来源:由Ayshwarya Subramanian博士提供)
这种令人激动的新方法可以用于:
scRNA-seq是解决一些较常见研究的流行方法,比如:
sc_analyses.png
在scRNA-seq之前,使用大量RNA-seq进行转录组分析,这是一种比较细胞表达平均值的简单方法。如果寻找疾病生物标志物,或者不期望或不关心样品中的大量细胞异质性,则这可能是最佳方法。
尽管大量RNA-seq可以探索不同条件(例如治疗或疾病)之间基因表达的差异,但无法充分捕获细胞水平的差异。例如,在下面的图像中,如果进行大量分析(左),我们将无法检测到基因A和基因B的表达之间的正确关联。但是,如果我们按细胞类型或细胞状态正确地对细胞进行分组,我们可以看到基因之间的正确相关性。
sc_vs_bulk_cells.png图片来源:Trapnell,C.使用单细胞基因组学定义细胞类型和状态,2015年基因组研究(doi:https : //dx.doi.org/10.1101/gr.190595.115)
正如人无完人,技术也一样。尽管scRNA-seq能够在细胞水平上捕获表达,具有诸多优势,但样品的产生和文库的制备更加昂贵,并且分析更为复杂且难以解释,是研究人员不得不面临的挑战。
来自scRNA-seq实验的表达数据代表了成千上万个细胞的十万或十万个读数。数据输出要大得多,需要更多的内存进行分析,更大的存储要求以及更多的时间来运行分析。
对于基于液滴的scRNA-seq方法,测序深度较浅,通常每个细胞仅检测10-50%的转录组。这导致细胞中许多基因的计数为零。但是,在特定的细胞中,基因的零计数可能意味着该基因没有被表达而不是没有检测到转录本。在整个细胞中,具有较高表达水平的基因倾向于具有较少的零。由于这一特性,许多基因在任何细胞中都不会被检测到,细胞间的基因表达也会有很大差异。
生物学差异的无用来源可能导致细胞之间的基因表达比实际生物细胞类型/状态更相似/不同,这可能会掩盖细胞类型的标识。
生物学差异的无用来源(除非实验研究的一部分)包括:
sc_biol_variability.png(图片来源:Wagner,A等。用单细胞基因组学,Nat Biotechnol揭示细胞身份的载体。2016年(doi:https://dx.doi.org/10.1038%2Fnbt.3711))
技术差异来源可能导致细胞间的基因表达因技术差异而变的更加相似或不同,而不是生物细胞的类型/状态变化造成的,这会模糊细胞类型的一致性。
技术差异的来源包括:
batch_effect_pca.png图片来源:Hicks SC等,bioRxiv(2015)
如何知道是否有批次效应
如果答案为“否”,那么你就有批次效应
关于批次效应的最佳做法:
confounded_batch.png
batch_effect.png
虽然scRNA-seq是一种功能强大且有见地的可以从单细胞水平分析基因表达的方法,但仍存在许多挑战和变异来源,这可能会使数据分析变得复杂或有限。
总体而言,我们建议以下内容:
注:以上内容来自哈佛大学生物信息中心(HBC)的教学团队的生物信息学培训课程。原文链接:https://hbctraining.github.io/scRNA-seq/schedule/