Published: 20 June 2019
大多数研究依赖于相对丰度数据进行差异丰度分析。
本文展示了在比较不同样品的相对丰度时的常见陷阱,并确定了两种无需估计微生物总量就能揭示微生物变化的方法。
定义了“reference frames”,用来揭示微生物组数据的性质,可用来推断群落丰度的变化。
—Let's Start!—
背景
为了说明使用相对丰度数据推断样本间丰度变化的缺陷,考虑上图的例子。
在处理前两个类群的比例相等。经过处理后,橙色物种是蓝色物种的两倍。人们很容易得出这样的结论:橙色物种增加了,蓝色物种减少了。
然而许多不同的过程可能导致相同的观察结果。例橙色物种可以翻四倍,蓝色物种只能翻两倍。或橙色物种可以保持不变,蓝色物种减半。或者橙色物种减半,蓝色物种减少四倍。
由于我们只观察相对丰度数据,无法区分这些结果,但实际上它们具有明显不同的生物学意义。无穷多个不同的结果产生了相同的2:1的橙色和蓝色比例,极大地复杂化了有意义的零假设,因此产生了误导人的P值。
研究表明使用不适当的统计工具分析相对丰度数据可以产生高达100%的错误率。
13. Mandal, S. etal. Analysis of composition of microbiomes: a novel method for studying microbial composition. Microb. Ecol. Health Dis. 26, 27663 (2015). 14. Morton, J. T. et al. Balance trees reveal microbial niche differentiation. mSystems2, e00162–16 (2017)
第一个引用的文献即之前介绍的ANCOM方法
因此,除了相对丰度数据外,还需要微生物总量的定量信息来确定哪些微生物正在发生变化。在样品处理的每一阶段,都提出了多种方法来量化环境样品中微生物的总量:
1
加入已知数量的参考DNA作为内部标准,已被用来推断起始核酸含量。由于选择合适的内标量存在标定上的困难,采用这种方法进行归一化比较复杂。
15. Smets, W. etal. A method for simultaneous measurement of soil bacterial abundances and community composition via 16s rrna gene sequencing. Soil. Biol. Biochem. 96,145–151 (2016). 16. Tkacz, A., Hortala, M. & Poole, P. S. Absolute quantitation of microbiota abundance in environmental samples. Microbiome 6, 110 (2018)
2
提取DNA后利用针对16S rRNA基因的通用引物对基因组DNA进行定量PCR (qPCR)来估计微生物的总量。
然而引物偏好性是不可能预防的,导致rRNA基因在不同物种间扩增不均匀,而DNA提取方法会影响微生物的组成。
3
流式细胞仪定量微生物是在原始样本上进行的,与核苷酸序列无关。
研究表明流式细胞术获得的定量信息可以显著改善对16S rRNA基因扩增子测序数据的解释。
然而流式细胞术需要昂贵、相对低通量的设备,往往只能估计细胞浓度,而不是总微生物量。
方法
下面介绍两种方法来评估相对丰度差异,而不需要知道微生物总量。
比例
通过简单地比较样品间物种的比例,未知的微生物数量引入的偏差被抵消了。
对这个比率取对数(log-ratio)可以使对称性在零附近增强,使相对增加和相对减少的权重相等。
排序
比例可以避免未知微生物量带来的偏差。然而从给定的样本集中的数千个分类单元中选择分类单元进行比较可能具有挑战性。因此提供了第二种方法,对相互之间变化最大的微生物进行排序。
差异(differential)一词是指一个类群在两种条件之间丰度变化的对数。利用微生物总量,可以计算绝对差值。微生物组测序只提供相对丰度,因此只能推断相对差异值。
相对差异的秩与绝对微分的差异相同理论上相同。然而存在偏差,我们不能仅根据秩来推断微生物是否发生了变化,因此相关系数为零并不意味着微生物的丰度没有发生变化。
相对差异可以直接用多项式回归估计,通过对多元回归分析的系数进行排序,可以确定样本间变化最大的类群。我们将这个排序过程称为差异排序differential ranking (DR)。
Reference frames
借鉴了物理学中速度的概念:速度是一个物体相对于另一个物体的运动。
基于此概念提出了微生物中的Reference frames。
随着微生物种群的变化,我们可以根据相对于其他微生物种群给出的参考系,考察微生物种群是如何变化的。
比例方法中,对数比中的分母决定了推断变化的参考系。
DR中,当对每个分类单元进行数值排序时,每个分类单元的差异丰度作为彼此之间的参考。
三个例子对参考系的使用做了进一步的说明。
NO1
采集刷牙前后唾液样本,相对丰度或绝对丰度数据(微生物总量乘以16S拷贝数校正后的相对丰度),对每个分类单元在刷牙前后的丰度变化进行t检验。对相对丰度进行t检验的假阳性率较高。此外,相对丰度和绝对丰度数据之间的P值分布不存在相关性(Spearman r = 0.09),突出了零假设在相对丰度和绝对丰度之间不一致时的问题。
在相同的数据集上运行ANCOM和ALDEx2,ALDEx2没有发现任何一种正在发生变化的微生物,这与流式细胞仪检测结果相矛盾。
ANCOM发现了多种变化显著的微生物,如Veillonella,但这一结果与绝对丰度相矛盾, Veillonella的绝对丰度并没有显著变化。ANCOM检测到的假阳性可能是由于他们选择的参照系所致。
基于比例和DR的方法得到的结果和绝对丰度一致性很好。
基于DR,ALDEx2和ANCOM得到的差异物种。
ALDEx2:
Gloor, G.Aldex2: Anova-like differential expression tool for compositional data. ALDEXmanual modular 20, 1–11 https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0067019(2015)
NO2
利用特应性皮炎(AD)患者的数据,演示了相对丰度如何产生假阴性。
DR分析可以识别新的、临床意义重大的微生物变化。
NO3
来自中央公园土壤实验的数据来证明连续值数据也可以用DR分析。
应用多项线性回归来估计微生物在氮和pH梯度上的DR值。多项回归能够正确地识别出哪些生物与低pH值、高pH值和氮最相关。
基于相对丰度和绝对丰度数据作出推断之间的一致性是至关重要的,因为在许多情况下不能估计微生物总量。虽然绝对丰度和相对丰度之间似乎存在矛盾,但这并不会使现有的10万多个使用16S rRNA基因扩增子或元基因组测序的实验数据失效。
虽然关于如何解释微生物丰度存在着广泛的错误,但作者已经证明,错误源于对分析中使用的reference frame的错误使用。
NIH和EMBL-EBI已经存储了大量的数据集,准备用于重新分析。
而数据库如Qiita和gcMeta,包含了来自数十万个样本的数据和元数据。利用reference frame对这些数据集进行重新分析,从而对变化做出稳定的推断,这对于解决目前悬而未决的诸多问题非常有希望。
全文分析代码:
https://github.com/knightlab-analyses/reference-frames
原文(阅读原文):
https://www.nature.com/articles/s41467-019-10656-5
完