前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >跟着存档教程动手学RNAseq分析(二)

跟着存档教程动手学RNAseq分析(二)

作者头像
王诗翔呀
发布2022-06-27 18:54:22
5890
发布2022-06-27 18:54:22
举报
文章被收录于专栏:优雅R优雅R

跟着存档教程动手学RNAseq分析(一)

了解RNA提取和RNA- seq文库制备的实验过程中的步骤有助于设计RNA- seq实验,但有一些特殊的考虑因素需要强调,这些因素会极大地影响差异表达分析的质量。

这些重要的考虑包括:

  1. 重复的数目和重复的类型
  2. 避免混淆
  3. 解决批次效应

我们将详细讨论这些考虑事项,讨论最佳实践和最佳设计。

重复

实验的重复可以通过技术重复生物学重复的方式进行。

img

Image credit: Klaus B., EMBO J (2015)34: 2727-2730[1]

  • 技术重复:使用相同的生物样本重复技术或实验步骤,以便准确测量技术变异并在分析过程中去除。
  • 生物学重复:使用相同条件下的不同生物样本,测量样本之间的生物变异。

在微阵列芯片时代,技术重复被认为是必要的;然而,在目前的RNA-Seq技术中,技术变异远低于生物变异,不需要技术重复

相反,生物重复对于差异表达分析是绝对必要的。对小鼠或大鼠来说,确定不同的生物样本的组成可能很容易,但确定细胞系就有点困难了。这篇文章[2]对细胞系重复给出了一些非常好的建议。

对于差异表达分析,生物重复越多,对生物变异的估计就越好,对平均表达水平的估计也越精确。这导致我们的数据更准确的建模和识别更多的差异表达基因。

img

Image credit: Liu, Y., et al., Bioinformatics (2014)30(3): 301–304[3]

如上图所示,生物重复比测序深度更重要,测序深度是每个样本的总reads数。图中显示了测序深度与重复个数对差异表达基因个数的关系。值得注意的是,重复次数的增加往往比测序深度的增加返回更多的DE基因。因此,通常更多的重复比更高的测序深度更好,但需要注意的是,检测低表达的DE基因和执行转录本水平差异表达需要更高的深度。

为了确保重复之间的变化量相似,你可能希望为每个实验组设置相同的实验个体。

例如,如果你需要至少3个人来为你的对照重复获得足够的材料,至少5个人来为你的治疗重复获得足够的材料,你就可以将从对照组(3个)提取5次实验结果(就是额外从3个个体中再取2次做技术重复)。当然,你也要确保在这两种情况下汇集的个体在性别、年龄等方面是相似的。

对于批量RNA-Seq,重复几乎总是优先于更大的测序深度。然而,指导方针取决于所进行的实验和所需的分析。下面我们列出了一些关于重复和测序深度的一般指南,以帮助进行实验规划:

  • 一般基因水平差异表达:
    • ENCODE指南建议每个样本3千万单端reads。
    • 如果有好的重复(>3),那么每个样本通常1500万reads也是足够的。
    • 如果可能,花更多钱用于生物学重复。
    • 通常建议reads长度>=50bp。
  • 基因水平差异表达,想要检测低表达基因:
    • 相似地,生物学重复比测序深度重要。
    • 根据表达水平的不同,测序深度至少为3000 - 6000万次reads(从3000万次开始,重复的数量最大)。
    • 通常建议reads长度>=50bp。
  • Isoform-level差异表达分析:
    • 对于已知的isoforms,建议每个样品至少有3000万reads且配对。
    • 研究新的isoform需要更大的深度(6千万reads)。
    • 还是那句话,生物学重复更重要。
    • read长度越长越好。
    • 对RNA质量进行细致的质量控制。注意使用高质量的制备方法,并限制对高质量的RIN样品进行分析。
  • 其他类型的RNA分析(内含子,小RNA-seq等):
    • 根据具体情况设定。
    • 生物学重复越多越好。

注意:用于估计基因组测序深度的因子是“覆盖率”——被测序的核苷酸的数量“覆盖”基因组的次数。这个度量对于基因组(全基因组测序)来说不是精确的,但它已经足够好了,并且被广泛使用。然而,该指标不适用于转录组,因为即使你可能知道基因组中有多少%具有转录活性,基因的表达也是高度可变的。

混杂因素

一种被混淆的RNA-Seq实验是你无法区分数据中两种不同来源变异的单独的效应。

例如,我们知道性别对基因表达有很大的影响,如果我们所有的控制组小鼠都是雌性,而所有的治疗组小鼠都是雄性,那么我们的治疗效果就会被性别所混淆。我们不能把治疗的效果和性别的效果区分开来。

img

为了避免混淆因素:

  • 如果可能的话,确保每种情况下的动物都是相同性别、年龄、产仔和批次的。
  • 如果不可能,那么确保在不同条件下平均分配动物。

img

批次效应

批处理效应是RNA-Seq分析的一个重要问题,因为你可以看到仅由于批处理效应在表达上的显著差异。

img

Image credit: Hicks SC, et al., bioRxiv (2015)[4]

为了探索劣质批研究设计所产生的问题,这篇文章[5]重点强调了这些问题。

如何知道你是否有批次?

  • 所有的RNA分离都在同一天进行吗?
  • 所有文库的准备工作都在同一天进行吗?
  • 对所有样本进行RNA分离/文库准备的是同一个人吗?
  • 你对所有样本都使用了相同的试剂吗?
  • 你是在同一地点进行RNA分离/文库制备的吗?

如果有任何一个答案是“不”,那么你就有批次效应。

有关批次效应的最佳处理策略:

  • 如果可能的话,以避免分批的方式设计实验。
  • 如果无法避免批次:
    • 不要被批次混淆你的实验:

img

Image credit: Hicks SC, et al., bioRxiv (2015)[6]

  • 将不同样本组的重复拆分为多个批次。重复的越多越好(肯定多于2个)。

img

  • 在实验元数据中包含批处理信息。在分析过程中,如果没有混淆,我们可以回归出由于批处理而产生的变化,因此如果我们有这些信息,它不会影响我们的结果。

img

注:细胞系“生物”重复的样品制备“应尽可能独立进行”(成批),“这意味着细胞培养基应为每次实验新鲜制备,应使用不同的冷冻细胞储备和生长因子批次等。”然而,所有条件下的准备工作应该同时进行。

参考资料

[1]

Klaus B., EMBO J (2015)34: 2727-2730: https://dx.doi.org/10.15252%2Fembj.201592958

[2]

这篇文章: http://paasp.net/accurate-design-of-in-vitro-experiments-why-does-it-matter/

[3]

Liu, Y., et al., Bioinformatics (2014)30(3): 301–304: https://doi.org/10.1093/bioinformatics/btt688

[4]

Hicks SC, et al., bioRxiv (2015): https://www.biorxiv.org/content/early/2015/08/25/025528

[5]

这篇文章: https://f1000research.com/articles/4-121/v1

[6]

Hicks SC, et al., bioRxiv (2015): https://www.biorxiv.org/content/early/2015/08/25/025528

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 优雅R 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 重复
  • 混杂因素
  • 批次效应
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档