前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MER:Hill numbers在多样性分析中的应用

MER:Hill numbers在多样性分析中的应用

作者头像
Listenlii-生物信息知识分享
发布2020-06-01 13:45:26
2.8K0
发布2020-06-01 13:45:26
举报

Journal: molecular ecology resoreces

First published: 04 April 2019

Type: Invited Technical Reviews

本文介绍了Hill number在DNA测序技术中的应用。讨论了以下几个方面:

1)多样性类型

2)如何权衡每种类型的重要性

3)abundance-based 和incidence-based方法的差异

4)系统发育多样性的测定

5)层级多样性划分

6)不相似性及重叠部分的测定

7)处理zero-inflated,insufficient和biased的数据。

所有步骤都使用真实的数据进行演示,并提供相应的bash和R脚本。

背景

目前使用的多样性指数非常多,如Shannon index, Rao’s quadratic entropy, Pianka’s niche overlap,Unifrac distances。在选择指数的时候需要考虑四个方面:

1. 需要定义一个衡量多样性的单位;

2. 不考虑丰度presence/absence(=incidence) 或者考虑丰度quantitatively (=abundance)

3. 是否考虑系统发育或者功能上的多样性

4. 评价数据是否具有代表性,及存在的biases

很重要的一点:“the final results might depend on the decisions researchers make to measure biodiversity”

Hill number将多种多样性指数进行了统一,提供了一个通用、稳定和灵活的统计框架,可以解决分子生态学家经常试图通过对多样性的测量、估计、划分和比较等手段来回答的广泛科学问题。本文旨在利用基于Hill number的多样性分析所带来的好处,为使用基于DNA测序技术的多样性分析提供概念和实践指南。

多样性类型

物种(taxonomic species)常被用作多样性的类型。而在基于DNA的方法中即为OTU。对OTU的划分则基于序列之间的相似性。97%是广泛使用的种间差异的标准阈值。

权衡每种类型的重要性

不同指数对高丰度和稀有物种的权重是不同的。如richness指数中,高丰度和稀有物种权重相当。Shannon和Simpson对高丰度物种有着更高的权重。但是其实这两个指数并不反映真正的多样性。Shannon测的是系统的熵,表征从系统中随机选OTU其分类的不确定性。Simpson表明随机选两条序列他们属于不同OTU的概率。

具体来说,我们对多样性的直观理解是当一个系统中的OTUs数量翻倍时,测量的多样性也应该加倍。这就是所谓的“加倍性质”(doubling property)或“复制原理”(replication principle)。但是Shannon和simpson的增加量都不够。因此将多样性指数当做多样性的值都是在一定的实际意义条件下进行的。

richness, Shannon和Simpson都可以被统一到Hill的框架中。

Hill number的定义在前文介绍过,这里略过。

四种群落中Hill的阶数与其对应多样性的关系。Hill传达了物种丰度分布中包含的所有信息。

Abundance-based vs. incidence-based方法

传统的Hill一般基于abundance数据。但是近期也被引入到了Incidence数据。虽然Incidence数据的信息量不如abundance数据,但它更容易收集,更具可比性,在生态位理论框架下得到了广泛的应用,如计算生态位宽度的Levins' index,本质上就是incidence‐based q=2 Hill number。不过也有研究表明Incidence数据会高估稀有OTU的重要性,abundance数据结果可能更准确。两者孰优孰劣没有定论,取决于研究的问题即实验设计。

abundance-based Hill可用于样本间和整个系统之间的比较,而incidence-based q>0 Hill仅对整个系统有意义(pool of sample)。

不同类型之间的关系

对于每种常规多样性指数,都有其对应的系统发育多样性指数,如下表所示。

三种常见的多样性及系统发育多样性指数

将多样性分解为α,β,γ

qDᵧ = qDα x qDß

这个公式有三个性质

α和β不相关。α高β不一定高。反之亦然。

γ完全由α和β决定。

α不可能超过γ。

处理zero-inflated, insufficient and biased的数据

OTU中经常会出现很多0,实的数据的分布不符合标准的分布。

0可以是真的0或假的0。假的0的原因可能是采样不足或不正确。

END

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档