前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >估计理论物种数

估计理论物种数

作者头像
Listenlii-生物信息知识分享
发布2020-07-14 16:21:37
1.4K0
发布2020-07-14 16:21:37
举报

生物多样性的测量和评估是许多生态学研究的中心目标。衡量生物多样性最简单也是最常用的方法是物种丰富度(物种的数目)。

但是实际上几乎所有的生物多样性研究和分析都是基于采集的样本数据。然而由于取样的限制,几乎不可能通过有限的取样力来检测所有的物种,特别是在有许多稀有物种的高多样性的群落中。

因此,对样本中物种的简单计数低估了真实的物种丰富度。且丰富度强烈依赖于样本量和样本的完整性。

一般有两种统计方法来推断物种丰富度:

(1)基于物种丰富度估计的渐近方法

(2)基于样本量或样本完整性标准化的非渐近方法

1. 基于物种丰富度估计的渐近方法

这种方法的目的是估计一个物种积累曲线的渐近线。估计的渐近线被用作真实物种丰富度,它可以在群落之间进行比较。

传统的曲线拟合方法是利用参数曲线拟合物种积累曲线或种群面积曲线来预测其渐近线。提出的渐近函数包括negative exponential function, the Weibull function, the logistic function, the Michaelis–Menten function。

这种方法虽然直观,但并不直接使用常见和稀有物种的丰度信息,而只是使用存在数据来预测上升曲线的形状和渐近线。

曲线拟合方法的另一种类型涉及拟合参数分布或函数形式的物种丰度,以获得物种丰富度的估计。包括对数正态曲线与和其他零截断分布(例如负二项分布、几何分布、Zipf-Mandelbrot分布、对数分布。虽然这种方法使用了关于常见和稀有物种的丰度信息,但它只是将一条曲线与观察到的数据拟合。

曲线拟合方法的一个主要问题是它们不基于任何统计抽样模型,因此在不强加进一步假设的情况下,不能计算结果渐近线的方差。因此无法在群落之间对估计值进行严格的统计比较。第二个问题是,很多不同的函数形式可能都适合同一数据集,但对渐近线产生截然不同的估计,这表明选择适当的分布或函数形式非常困难。

对于物种数估计有两种方法,分别是参数和非参数的方法。

参数方法是假设物种丰度遵循一个或两个参数的统计模型。参数化方法的主要缺点是只有当物种丰度分布的正确形式已知时,它们才能很好地工作,但这在现实中很难实现。此外,可能难以选择适当的参数模型。参数化方法也不允许对不同分布函数的组合进行有意义的比较(如满足对数正态群落不能与物种丰度分布遵循几何级数的群落进行比较)。另外在某些情况下,迭代步骤不能适当收敛,因此可能无法得到物种丰富度估计。

而非参数方法对基本物种丰度分布的数学形式不作任何假设,避免了上述缺陷,在应用中具有更强的鲁棒性。

2. 基于标准化的非渐近方法

这种方法的目的是控制物种数对样本量和样本完整度的依赖性。

生态学家通常使用稀疏法对较大的样本进行抽样,直到它们与最小的样本大小相同。然后比较了这些同样大的样本的丰富程度,但这意味着更大样本中的一些数据被扔掉了。

为了避免丢弃数据,Colwell等人(2012)提出使用基于样本大小的稀疏(插值)和外推法(预测)物种丰富度的抽样曲线,可细化到较小的样本量或外推到较大的样本量。这些内容本文先略过。以后再说。

本文重点介绍非参数的物种数估计,这些指数在微生物的文章中被大量使用。但是很多人应该并不知道他们的来源与意义。

一个直观和基本的概念是,丰富的物种(在样本中肯定会被检测到)几乎不包含任何关于未被检测到的物种丰富度的信息,而稀有的物种(很可能未被发现或不经常被发现)包含几乎所有关于未被发现物种丰富度的信息。

因此,大多数未检出物种数目的非参数估计是基于已检出稀有物种的计数,特别是丰度数据的singletons 和 doubletons,或发生率数据的uniques 和 duplicates。

Chao1- and Chao2-type estimators

当在一个高度多样性的群落中有许多无法探测或“看不见”的物种时,从统计学上讲就不可能对物种丰富度进行良好的估计。因此一个准确的物种丰富度下限往往比一个不精确的点估计更具有实际用途。Chao(1984, 1987)根据singletons (f1) 和 doubletons (f2)的数量推导了未检测物种丰富度的下界,称为Chao1估计量:

Chiu等人(2014)最近利用tripletons (f3)和 quadrupletons(f4)的额外信息估算未检测物种丰富度,得出了更大的下限;对应的物种丰富度下界称为iChao1估计量:

尽管Chao1和iChao1估计是物种丰富度的下界,他们当满足两个条件时通常也满足点估计,即(1)稀有物种的丰度几乎是均匀的, (2) n相对于物种丰富度足够大,这样singletons和未被发现的物种有大约相同的平均丰度。

对于发生率数据,对应的物种丰富度估计量称为Chao2估计量:

与Chao1估计不同,这里的因子(T−1)/T不能被忽略,因为T对于关联数据可能不够大。类似的,Chiu等(2014)推导出相应的iChao 2估计量:

Coverage-based estimators (ACE- and ICE-type estimators)

ACE(基于丰度的覆盖度估计)和ICE(基于发生率的覆盖度估计)的物种丰富度是基于覆盖度的概念。

关于覆盖度,前文介绍过:计算样本的覆盖度(Coverage)

将样本覆盖度的概念应用于物种丰富度估计时,阈值(cut-off) k需要将物种分为稀有种(频率≤k)和丰富种(频率>k)组。k= 10适用于大多数数据。当为为高度异质的群落如细菌或微生物测序数据,另一个选择是k= max (10,n/Sobs)

由于已检测到的稀有物种几乎包含了未检测到的物种的所有信息,ACE方法利用来自稀有物种组的信息来估计未检测到的物种数量:

对于高丰富度和高异质性的群落(物种丰富度> 1000,CV,coefficient of variation > 2),ACE会偏低。在这种情况下,Chao和Lee(1992)推导了一个修正估计量,ACE-1。ACE和ACE-1的近似方差可用标准统计近似理论得到。

对于ICE,同样建议k = 10。

于物种丰富和高度非均匀的组合也可以得到类似的ICE-1估计。

Jackknife estimators

Jackknife是由一种减少有偏估计量偏差的通用方法而发展起来。这里,有偏估计量是样本中观察到的物种数量。第j阶Jackknife的基本思想是通过从数据中依次删除j个个体来考虑子数据。

尽管前人研究表明jackknife方法对于物种丰富度估计的偏差降低没有理论依据,但前两阶jackknife估计在各个领域得到了广泛的应用。一阶jackknife表示为

这个估计暗示未检测到的物种的数量与singletons的数量大致相同。二阶jackknife的形式为:

Chiu等人(2014)基于多种物种丰度模型进行了大量模拟,结果表明,当样本容量相对较小时,两种jackknife估计器通常会低估真实物种丰富度,而当样本容量较大时,则会超过真实物种丰富度并高估。因此,在一个有限的样本大小范围jackknife估计接近真实的物种丰富度。

jackknife估计表现出反直觉的模式:它们的偏差、准确性和覆盖概率在一定范围内不会随着样本容量的增加而提高,而上述其他估计总是在提高。

这些指数可以通过SpadeR和fossil进行计算,之前都介绍过,见:

物种数量及多样性的外推

SpadeR:多样性指数计算的全家桶

Reference

Chao, Anne and Chiu, Chun-Huo (May 2016)Nonparametric Estimation and Comparison of Species Richness. In: eLS. John Wiley& Sons, Ltd: Chichester. DOI: 10.1002/9780470015902.a0026329

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档