
上文《微生物网络构建原理: SparCC, MENA, LSA, CoNet》提到了微生物数据由于存在双零问题,会使得相关性偏高。
《数量生态学》中有一小节专门介绍了双零效应:
0的存在其原因有很多:
可能这个地方不适合该物种生存;
可能适合生存,但物种还没有在这里定殖;
可能可以生存,但是存在一定生存压力;
可能该物种存在,但是分布不均匀,取样没有取到;
也可能在后续实验、数据处理阶段丢掉了该物种。
因此双零存在的原因可能不同,简单因为双零就得出物种组成相似是不准确的。
很多方法都需要考虑双零问题带来的效应,如网络。
另外PCA就默认双零是相似的。因此极端情况就会出现马蹄形效应(horseshoe effect),即本来距离最远的样本由于强梯度的存在,在空间中弯曲而离的很近。
因此如果数据位于生态梯度的两端,存在很多双零,这种现象就会很严重。
数据的Hellinger转化或弦(chord)转化可以部分解决这个问题。

typical horseshoe shape
2017年有文章专门讨论了微生物研究中的马蹄形效应,还是Rob Knight大神的作品:

这里不再赘述。
Reference:
Numerical Ecology with R
END