专栏首页单细胞天地单细胞RNA-seq分析介绍

单细胞RNA-seq分析介绍

分享是一种态度

本课程学习目标 描述设计单细胞RNA-seq实验的最佳实践 描述单细胞RNA-seq分析的工作流程步骤 使用Seurat和相关工具来执行单细胞表达数据的分析,包括数据过滤,QC,整合(降维),聚类和标记识别

为什么要学习single-cell RNA-seq

在整个人体组织中,细胞类型、状态和相互作用是非常多种多样的,为了更好的了解这些组织和存在的细胞类型,我们需要更高分辨率的技术,而scRNA-seq提供了在单个细胞水平上表达哪些基因的信息,恰好能满足我们的需求。

scRNA-seq_cell_diversity.png(图片来源:由Ayshwarya Subramanian博士提供)

这种令人激动的新方法可以用于:

  • 探索组织中存在哪些细胞类型
  • 识别未知/稀有的细胞类型或状态
  • 阐明分化过程中或跨时间或不同状态下的基因表达变化
  • 识别在特定条件下(例如治疗或疾病)在特定细胞类型中差异表达的基因
  • 纳入空间,调控和蛋白表达信息,探索细胞类型之间表达的变化

scRNA-seq是解决一些较常见研究的流行方法,比如:

  • 细胞异质性研究
  • 谱系追踪研究
  • 随机基因表达研究

sc_analyses.png

scRNA-seq分析面临的挑战

在scRNA-seq之前,使用大量RNA-seq进行转录组分析,这是一种比较细胞表达平均值的简单方法。如果寻找疾病生物标志物,或者不期望不关心样品中的大量细胞异质性,则这可能是最佳方法。

尽管大量RNA-seq可以探索不同条件(例如治疗或疾病)之间基因表达的差异,但无法充分捕获细胞水平的差异。例如,在下面的图像中,如果进行大量分析(左),我们将无法检测到基因A和基因B的表达之间的正确关联。但是,如果我们按细胞类型或细胞状态正确地对细胞进行分组,我们可以看到基因之间的正确相关性。

sc_vs_bulk_cells.png图片来源:Trapnell,C.使用单细胞基因组学定义细胞类型和状态,2015年基因组研究(doi:https : //dx.doi.org/10.1101/gr.190595.115)

正如人无完人,技术也一样。尽管scRNA-seq能够在细胞水平上捕获表达,具有诸多优势,但样品的产生和文库的制备更加昂贵,并且分析更为复杂且难以解释,是研究人员不得不面临的挑战。

scRNA-seq数据分析的复杂性:

数据量大

来自scRNA-seq实验的表达数据代表了成千上万个细胞的十万或十万个读数。数据输出要大得多,需要更多的内存进行分析,更大的存储要求以及更多的时间来运行分析。

每个细胞的测序深度很低

对于基于液滴的scRNA-seq方法,测序深度较浅,通常每个细胞仅检测10-50%的转录组。这导致细胞中许多基因的计数为零。但是,在特定的细胞中,基因的零计数可能意味着该基因没有被表达而不是没有检测到转录本。在整个细胞中,具有较高表达水平的基因倾向于具有较少的零。由于这一特性,许多基因在任何细胞中都不会被检测到,细胞间的基因表达也会有很大差异。

跨细胞/样品的生物学差异

生物学差异的无用来源可能导致细胞之间的基因表达比实际生物细胞类型/状态更相似/不同,这可能会掩盖细胞类型的标识。

生物学差异的无用来源(除非实验研究的一部分)包括:

  • 转录爆发:并非所有时间都一直打开基因转录。收获时间将决定基因在每个细胞中是打开还是关闭
  • RNA处理的速率各不相同:不同的RNA的处理速率不同
  • 连续或离散的细胞特性(例如,每个单个T细胞的促炎症潜能)连续的表型是基因表达中定义明确的变量,有时很难将连续的与离散的分离
  • 环境刺激:细胞的局部环境可以根据空间位置,信号分子等影响基因的表达
  • 时序变化:基本的细胞流动过程,例如细胞周期,会影响单个细胞的基因表达谱。

sc_biol_variability.png(图片来源:Wagner,A等。用单细胞基因组学,Nat Biotechnol揭示细胞身份的载体。2016年(doi:https://dx.doi.org/10.1038%2Fnbt.3711))

跨细胞/样品的技术差异

技术差异来源可能导致细胞间的基因表达因技术差异而变的更加相似或不同,而不是生物细胞的类型/状态变化造成的,这会模糊细胞类型的一致性。

技术差异的来源包括:

  • 细胞特异性捕获效率:不同细胞捕获的转录物数量不同,导致测序深度不同(例如,转录组的10-50%)。
  • 文库质量:降解的RNA,低存活力/濒死细胞,大量自由漂浮的RNA,离解差的细胞以及细胞定量不准确可能导致质量指标降低
  • 扩增偏差:在文库制备的扩增步骤中,并非所有转录本都扩增到相同水平。
  • 批处理效应:对于scRNA-Seq分析,批处理效应是一个重要的问题,因为您可以仅由于批处理效应就看到表达上的显着差异。

batch_effect_pca.png图片来源:Hicks SC等,bioRxiv(2015)

如何知道是否有批次效应

  • 是否在同一天进行了所有RNA的分离?
  • 是否在同一天进行了所有文库的准备工作?
  • 是否由同一个人对所有样品进行RNA分离/文库制备?
  • 是否对所有样品使用相同的试剂?
  • 是否在同一地点进行RNA分离/文库制备?

如果答案为“否”,那么你就有批次效应

关于批次效应的最佳做法

  • 如果可能,尽量以避免批次效应的方式设计实验
  • 如果无法避免批量处理
  • 不要分批混淆实验

confounded_batch.png

  • 不要对不同的样本组进行分批重复,跨批次拆分不同样本组的重复样本。如果跨条件进行DE或在总体水平上得出结论,则重复越多越好(肯定大于2)。如果使用一次准备一个库的inDrops,则交替使用样品组(例如,不要先准备所有对照库,然后准备所有处理库)。

batch_effect.png

  • 不要在您的实验性元数据中包含批处理信息。在分析过程中,我们可以消除由于批次引起的差异,也可以跨批次进行整合,因此,只要我们掌握了这些信息,就不会影响我们的结果。

结论

虽然scRNA-seq是一种功能强大且有见地的可以从单细胞水平分析基因表达的方法,但仍存在许多挑战和变异来源,这可能会使数据分析变得复杂或有限。

总体而言,我们建议以下内容:

  • 除非对感兴趣的实验问题有必要,否则不要进行单细胞RNA-seq。您首先要思考,您是否能使用批量测序来解决你的问题吗?这更简单且成本更低?也许FACS可以对样品进行分类,以便进行批量分析?
  • 了解您要解决的实验性问题的详细信息。以便根据具体实验来确定文库制备方法和分析工作流程
  • 尽可能避免使用技术上的差异来源:
  • 在实验开始之前与专家讨论实验设计
  • 同时从样品中分离RNA
  • 同时准备样品库或备用样品组,以避免批次混淆
  • 不要混淆性别,年龄或批次的样本组

注:以上内容来自哈佛大学生物信息中心(HBC)的教学团队的生物信息学培训课程。原文链接:https://hbctraining.github.io/scRNA-seq/schedule/

本文分享自微信公众号 - 单细胞天地(sc-ngs),作者:单细胞天地

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 回顾:单细胞入门-读一篇scRNA-seq综述

    本来想看这篇文章 A general and flexible method for signal extraction from single-cell RN...

    生信技能树jimmy
  • scRNA-seq—质量控制

    单细胞RNA-seq分析介绍 单细胞RNA-seq的设计和方法 从原始数据到计数矩阵 差异分析前的准备工作 scRNA-seq—读入数据详解

    生信技能树jimmy
  • 综述:高维单细胞RNA测序数据分析工具(上)

    当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴...

    生信技能树jimmy
  • 用代码生成一首现代诗~

    爱敲代码的猫
  • FPGA时序分析

    时序约束对项目有什么影响? • 实现工具不会试图发现能够获得最佳速度的布局和布线方式 – 相反,设计实现工具试图满足您设定的性能目标 • 性能目标通过时序约束来...

    碎碎思
  • 综述:高维单细胞RNA测序数据分析工具(上)

    当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴...

    生信技能树jimmy
  • 单细胞RNA-seq的设计和方法(一)

    Bulk vs scRNA-seq.png Bulk RNA-seq : 它测定的是一个大的细胞群体中的每一个基因的平均表达水平。对比较转录组学、找疾病标志物、...

    生信技能树jimmy
  • 《python算法教程》Day9 - 快速排序法快速排序法简介代码展示

    这是《python算法教程》第9篇读书笔记,笔记的主要内容为快速排序法。 快速排序法简介 快速排序法运用分治法的方式,将需要排序的序列细分成小序列进行排序。 ...

    billyang916
  • 优步开源自主可视化系统,一个基于web的车辆数据平台

    研究公司称,到2025年,超过800万辆自动驾驶汽车将进入公共道路,它们都有一些共同之处:传感器,功能强大的PC和机器学习算法。Nvidia,英特尔的Mobil...

    AiTechYun
  • Linux 命令系列之 seq

    在搭建 Elasticsearch 集群时,需要设置多个数据目录,以提高磁盘吞吐量,使用 seq和mkdir 可以快速批量创建。

    叨叨软件测试

扫码关注云+社区

领取腾讯云代金券