专栏首页Listenlii的生物信息笔记mbio: 随机采样过程会高估微生物群落的beta多样性

mbio: 随机采样过程会高估微生物群落的beta多样性

2013年发表于mbio。是微生物生态领域非常经典和重要的一篇文章!

β多样性,即两地点之间物种组成的差异,对于理解物种多样性的时空格局以及控制群落组成和结构的机制至关重要。

然而测序技术中的测序错误、偏差、重现性和定量能力低导致定量β多样性十分困难,且会极大地高估群落的多样性。

本文针对群落大小已知和未知两种情况,基于一般采样理论(general sampling theory)分别提出了数学框架,模拟随机采样对β多样性的影响。

此数学框架能够准确预测技术重复之间低重现性的问题,表明随机采样过程是导致技术重复之间变化的主要因素。

另外,根据泊松随机抽样(Poisson random sampling)预测的值与观测到的OTU overlap相一致,进一步证明了技术重复之间重现性低是由于随机采样过程中的人为因素导致。

最后,建立了一个数学框架来预测一定的采样量可以达到的样本之间重叠的期望值。

利用本文的模型进行预测,为了达到技术重复之间高度的重现性,目前的测序量还需要再提升好几个数量级。

由于大多数的生态学研究都包含随机采样过程,本研究的结论也可以推广到其他的生态研究中。

基于扩增子测序的方法重现性低,尤其是对低丰度的物种。技术重复之间变异大的原因可能是由于随机采样过程导致。

由于微生物群落中大部分物种丰度很低,因此对他们的检测就十分困难。在此基础上,resample过程想要得到低丰度物种就更困难了。

采样带来的偏差取决于群落的复杂度和样本量。群落越复杂偏差会越严重;而通过增加样本量来减少偏差还未有理论支持。

假设:随机采样过程是导致技术重复之间高度变化的主要原因。

证明:先构建了一个理论框架模拟随机采样过程,并预测为了达到理想的重现性所需要的采样量(sampling efforts);其次利用一个抽球的例子解释随机采样过程带来的偏差,同时检验了这个框架能否应用于预测不同技术重复之间OTU overlap低的情况。

Mathematical framework

(i) Sampling individuals from a large regional community.

大尺度上的物种丰度分布与小样本观测到的物种丰度之间的关系至关重要。本文采用一般采样理论模拟随机采样过程的偏差。

假设一个物种在样本中的个体数取决于物种在大群落中的丰度、采样量、以及个体的空间分布。

先假设个体都是随机分布。N表示总个体数(如16S rRNA gene sequences), n为物种数量(如OTUs),丰度分别为x1, x2, . . ., xn。

随机采样得到一个个体,属于第i个物种ith的概率为xi/N。

从群落中随机采样得到m个个体,则属于第i个物种ith的个体数为mxi/N。

那么,在样本m中,得到k个个体中属于第i个物种ith的概率符合二项分布。

若k=0,

令xi/N = axi/m,其中 a = m/N, 表示采样比例,(2)可以近似为Poisson分布的指数形式:

这里先复习一下高等数学:

其中

显然/易证/易得/易知,(3)式成立。

因此,至少存在一个个体属于i个物种ith的概率为

Poisson分布是最简单的采样模型。根据一般采样理论,样本中观测到的丰度分布可以表示为

φa(m)是采样量为m时观测到的物种丰度分布;

φ(x)表示群落中丰度为x的物种丰度分布;

θ是参数向量。

(ii) Expected species overlap among samples with the size of the large community known.

群落大小N已知,两个和三个样本overlap的物种数分别表示为

其中a1,a2,a3分别为三个样本占总体的比例,即a1 = m1/N,a2,a3类似。

//////////

Jaccard和Bray-Curtis用来计算不同样本之间的overlap。

基于Jaccard相似性指数,两个样本共有的OTU(OJ2a1,a2,θ)计算如下:

其实就是P = P(AB)/(P(A∪B)-P(A∩B))

三个样本类似,公式略过。

(iii) Expected species overlap among samples with the size of the large community unknown.

群落大小N未知,计算期望的物种overlap。

大多数情况下群落个体数未知。即N未知。

泊松采样理论条件下,物种的丰度分布遵循尺度不变性,因此样本的丰度分布(y)可以通过群落丰度分布(x)进行估计。y = pxp为群落中被采样的比例。因此公式8可以被写为:

a1*, a2*, and θ*是N未知时的采样比例和参数向量。

随机采样两次,令p = a1 + a2,a1* = a1/(a1+a2), a2* =a2/(a1+ a2)。

m1和m2是两个样本中观测到的总个体数。所以a1=m1/N, a2=m2/N。a1*=m1/(m1 + m2), a2* =m2/(m1+ m2)。

因此物种overlap可以根据y而不是x得到,这样就不需要知道N。

(iv) Predicting sampling efforts for achieving a desired overlap among replicate samples.

假设两个样本分别需要采集m1' 和m2'个个体,保证所需要的overlap。为了简化计算,令m1'= m2'= m'。采样比例A= m'/N。

N已知时,预测的两样本overlap是:

N未知时,y= px = (a1 + a2)x。

N已知或未知时,共有物种数的公式可以统一为:

A* = m=/(m1 + m2),预测的overlap模型是:

结果

采用下图的方法模拟随机采样过程。三个罐子完全相同。N个球n种颜色。不同颜色的丰度分布完全相同。一个球就代表一个16S rRNA序列,一种颜色代表一个OTU。随机抽m个球出来,若m=N,三个样本的overlap为100%。但是实际上overlap取决于采样量、球的丰度分布、群落的复杂性。由于球的丰度分布相同,只有随机采样过程会给结果带来影响。

通过模拟实验与理论公式得到的结果进行比较,发现两者没有明显的差异,证明了模型的准确性。且N已知未知也没有显著差异。

模拟实验与理论公式的卡方检验结果。运用五种不同的物种丰度分布,在不同样本个数(2,3)和N已知与未知条件下检验拟合度。

蓝线为N已知条件的公式计算;红线为N未知的公式计算。点为实际观测值。A为2样本模拟,B为3样本模拟。理论和实际符合的非常好。N已知未知无显著差异。

样本量低时技术重复之间差异很大,但是随着样本量增加很快能达到平台期。

要达到一定的overlap所需要的序列数

A为2样本,B为3样本。5万条序列期望达到的overlap都高于80%。

对于2个样本,要达到90%的overlap理论需要71400条序列;

对于3个样本,要达到90%的overlap理论需要63770条序列。

目前绝大多数的微生物研究,尤其是土壤群落相关的研究,采样量都远远上面的理论值。

增加样本量和增加(生物学和技术)重复是最有效的改善重复之间重现性低的方法。

本文分享自微信公众号 - Listenlii(gh_1a9e56035563),作者:水岸风堤

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-05-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • NC:全球范围内子囊菌是最优势的真菌类群

    看了一下通讯作者Manuel Delgado-Baquerizo的文章,内容基本全是全球尺度微生物多样性和分布,发表的杂志还都很好。大尺度就是有其天然的优势。

    Listenlii-生物信息知识分享
  • 计算样本的覆盖度(Coverage)

    覆盖度(Coverage)这一概念最早是由现代计算机之父艾伦·图灵和他同事Good在二战期间为密码分析而提出的。

    Listenlii-生物信息知识分享
  • LULU:自己测试一下吧~~(结果非常amazing!)

    LULU的文章中使用的是植物的数据来验证其有效性。这使得该方法是否真的适用于微生物存在疑问。恰好我之前做过真菌的mock community,可以拿来验证一下~...

    Listenlii-生物信息知识分享
  • Binary classification - 聊聊评价指标的那些事儿【实战篇】

    分类问题就像披着羊皮的狼,看起来天真无害用起来天雷滚滚。比如在建模前你思考过下面的问题么?

    风雨中的小七
  • [标星4k+]开源Python版《我的世界》

    《我的世界 Minecraft》大家应该都听说过,但你有没有想过自己写一个这样的游戏呢?太难、太复杂了?也许吧,但是不试一试你怎么知道能不能成呢?

    Crossin先生
  • windows环境中python3.5下

    最近由于一些需求,要搞一下python,于是周末搞了搞.要连接服务器,进行一些服务器的操作,于是安装这个Paramiko包,

    py3study
  • 祭奠那些年,我弃坑的开源轮子

    谨以此篇纪念我那些已经弃坑的轮子。 作为一个有理想、有追求的程序员,我造过许许多多的轮子。不幸的是,大部分轮子都死在沙滩上了,只有用 markdown 写的项目...

    Phodal
  • 工作中常见的Redis部署模式

    单机模式是redis部署的最常见模式,这种模式非常不安全。如果出现断电或者redis宕机的情况,大部分情况就会导致数据的丢失。不过这种模式也有他的优...

    java乐园
  • Shell 命令行统计 apache 网站日志访问IP以及IP归属地

    Shell 命令行统计 apache 网站日志访问IP以及IP归属地 我的一个站点用 apache 服务跑着,积攒了很多的日志。我想用 shell 看看有哪些人...

    FungLeo
  • DWR让Ajax如此简单(2)

    源哥

扫码关注云+社区

领取腾讯云代金券