Link:
https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/2041-210X.13115
Published: 2018
摘要
由于测序深度的差异,微生物组测序数据通常需要标准化。
建议不要使用比例(proportions)或稀释(rarefying)来标准化数据,而使用替代方法,如上四分位数、CSS、edgeR-TMM或DESeq-VS。
然而这些建议是基于专注于差异丰度检验和方差标准化的研究,而不是群落间的比较(即β多样性)。
此外,样本内方差的标准化可能会减小物种均匀度的差异,从而可能扭曲群落水平的模式。
此外log转换会夸大稀有OTU之间差异的重要性,同时抑制常见OTU之间差异的重要性。
通过模拟和真实数据集测试了这些理论预测。
比例和稀释产生了更精确的比较,并且是唯一完全标准化样本测序深度的方法。此外,当常见OTU不同时,上四分位数、CSS、edgeR-TMM和DESeq-VS通常掩盖了群落之间的差异,当稀有OTU不同时,它们产生假阳性。
基于模拟,通过比例的标准化可能优于其他常用的生态群落比较方法。
背景
最古老和最直观的两种标准化方法是:
(a) Total Sum Normalization [TSS]:通过将样本中每个OTU的读数除以该样本中的总读数来将数据转换成比例。
(b)通过将每个样本随机二次采样到样本的最低测序深度来稀释数据。
然而近年来这两种方法都受到了严厉的批评。
比例法没有考虑异方差性,并且在比较特定OTU相对于其他OTU的丰度时导致虚假的相关性。
稀释会丢弃潜在有用的数据。
此外一些研究发现比例和稀释数据在差异丰度测试中表现不佳,并且通常具有较高的I型错误率。
因此其他方法已经被提出并迅速普及。这些方法包括上分位数归一化(UQ),r包metagenomeSeq中实现的CSS标准化, r包DESeq2(DESeq-VS) 的方差稳定标准化,以及r包edgeR(edgeR- TMM)中实现的M值标准化。
但是UQ、CSS、edgeR- TMM和DESeq- VS等转换方法也有不少问题。
1.它们不能保证样本之间的序列数量相等。而Bray–Curtis (BC)会受到测序深度差异的影响。当比较两个样本时,其中一个样本的测序深度是另一个样本的两倍,BC最小值就为0.333。使得这些样本之间的比较毫无意义。
2. 他们会标准化样本方差。方差和群落均匀度紧密相关。高度均匀的群落具有低方差;而具有低均匀度的群落具有高方差。因此,通过标准化样本间的方差,这些方法抑制了物种均匀度的差异。
3. 这些方法将log转化作为它们的方差标准化机制的一部分。目的是减少高度丰富OTU的影响,以便可以看到稀有OTU的影响。但是降低占主导地位OTU的重要性和放大稀有OTU的重要性可能会对群落之间的差异造成误导。
结果
结果证明了在BC,PCoAs和PERMANOVAs指标上,比例法和稀释法都优于所有其他标准化方法。
不同方法得到的BC不相似度。
相关文章: