前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >BioScience: 贯穿科学界的对数正态分布

BioScience: 贯穿科学界的对数正态分布

作者头像
Listenlii-生物信息知识分享
发布2021-01-05 10:36:06
3.1K0
发布2021-01-05 10:36:06
举报
文章被收录于专栏:Listenlii的生物信息笔记

JournalBioScience

Published: 01 May 2001

生物学和数学对概念化、形式化和抽象化的需求与日俱增。数学对于分析和表征随机变化特别重要,如人群中个体的大小和体重、他们对化学物质的敏感度,事件发生的时间等。这些数据的频率分布是决定可以对任何数据集有效执行统计分析类型的主要因素。许多广泛使用的统计方法,如方差分析(ANOVA)和回归分析,都要求数据服从正态分布,但在使用这些技术时,很少对数据的频率分布进行检验。

高斯(正态)分布最常被假定为描述来自许多学科的数据中出现的随机变化;众所周知的钟形曲线可以很容易地用两个值来描述和描述:算术平均值x和标准差s,因此数据集通常用表达式x±s来描述。正态分布的例子比比皆是。然而许多测量结果显示出或多或少的偏态分布。当平均值低、方差大、值不能为负值时,偏态分布尤其常见,例如,物种丰富度、传染病潜伏期的长短以及地壳中矿产资源的分布。这种偏态分布通常非常符合对数正态分布。图1给出了正态分布(对称分布)和对数正态分布(偏态分布)的拟合实例。注意,身高符合这两种分布。

图1正态分布和对数正态分布的例子。a,1052名女性的身高分布拟合正态分布,拟合优度p值0.75, b,1573份蜂蜜样品中羟甲基糠醛的含量符合对数正态(p = 0.41),但不符合正态(p = 0.0000)。有趣的是,女性身高的分布同样符合对数正态分布(p = 0.74)。

通常,生物的机制导致对数正态分布,且这个问题与进一步的对称的变异性结合在一起:细菌的平均浓度为106个,一个细胞分裂将导致2×106-或5×105细胞。因此变异范围将是不对称的,准确地说是围绕平均值乘以或除以2。

正态变异性和对数正态变异性有什么不同?这两种形式的可变性都是基于各种相互独立作用的力。一个主要的区别是,可变性是可加(additive)的,或可乘(multiplicative)的,从而分别导致正态分布或对数正态分布

用两个普通骰子可以很容易地演示加法和乘法效应的一些基本原理。将这两个数字相加,这是大多数游戏的原理,得到的值从2到12,平均值为7,频率分布对称。总范围可以描述为7±5,在这种情况下,5不是标准偏差。然而,将这两个数字相乘得到的值介于1和36之间,具有高度倾斜的分布。总变异性可以用6乘以6或除以6(或6×/6)来描述。在这种情况下,对称性移动到乘法水平。

虽然这些例子既不是正态分布,也不是对数正态分布,但它们确实清楚地表明,加法和乘法效应会导致不同的分布。因此,我们不能用相同的方式描述这两种类型的分布。然而不幸的是,人们普遍认为数量的可变性通常是钟形的和对称的目前常见的做法是使用图形中的误差线来表示标准偏差或误差,并用符号±来汇总数据,即使数据或基本原理可能暗示偏态分布。在许多情况下,变异性明显是不对称的,因为从平均值中减去三个标准差会产生负值,如100±50。

对数正态分布通常以对数变换变量为特征,使用其分布的期望值或平均值和标准差作为参数。这种表征可能是有利的,因为根据定义,对数正态分布在对数水平上也是对称的。不幸的是,一旦涉及对数,人们对统计的普遍厌恶就变得更加明显。这可能是人们对对数正态分布知之甚少的主要原因,从而导致经常产生误解和错误。当前处理对数正态分布的方法通常很笨拙。

为了了解样本,大多数人更喜欢从原始数据而不是经过对数转换的数据进行思考。这个概念对于对数正态分布数据来说也确实是可行和可取的,因为我们熟悉的正态分布的性质在对数正态分布中也有其相似之处。为了加深对对数正态分布的理解,鼓励人们正确使用对数正态分布,并展示它们在生活中的重要性,我们提出了一个新的物理模型来产生对数正态分布,从而填补了一个百年来的空白。我们还演示了参数的演变和使用,这些参数允许在原始规模下对数据进行表征。此外,我们比较了不同科学分支的对数正态分布,以阐明变异性的模式,从而再次强调对数正态分布在生活中的重要性。

演示对数正态分布起源的物理模型

Galton (1889年)提出了一个简单的物理模型,给出了二项式的清晰可视化,最后是正态可变性及其衍生。

图2a显示了这种“Galton板”的进一步发展,其中粒子从板上落下,并以相等的概率在判定点(三角形障碍物的尖端)左右偏离 (Galton使用了简单的钉子,而不是这里所示的等腰三角形,所以他的发明类似于弹球机或日本的弹子游戏)。

正态分布反映了决策点序列的累积相加效应。在顶部离开漏斗的粒子与第一个障碍物的尖端相遇,并以相等的概率向左或向右偏离距离c。然后,它与第二行中的相应三角形相遇,并再次以相同的方式偏离,以此类推。粒子从一行到下一行的偏差是随机变量的实现,可能的值为+c和-c,并且这两个值的概率相等。最后,经过r排三角形后,粒子落入底部的r+1个容器中。最终到达这些容器(编号为0,1,…,r)的概率遵循参数为r且p=0.5的二项式定律。当许多粒子通过障碍物时,堆积在几个容器中的粒子的高度将近似与二项式概率成正比。

对于较大的行数,根据中心极限定理,概率逼近正态密度函数。在其最简单的形式中,这个数学定律规定许多(R)个独立的、同分布的随机变量的和在极限为r→∞的情况下是正态分布的。因此,具有多排障碍物的Galton板的正态密度是容器中颗粒堆的期望高度,其机理是r个独立随机变量之和的思想。

图2 物理模型显示正态和对数正态分布的成因。粒子从漏斗中掉落到三角形的顶端,在那里它们以相同的概率(0.5)向左或向右偏移,最终落入容器中。分布的中位数低于粒子的入口点。三角形的左边缘的距离x, 粒子位置在x + c和x - c的正态分布面板(a)和x·c和x / c的对数正态分布面板(b),其中c为常量。分布是由许多小的随机效应(根据中心极限定理)产生的,这些随机效应对于正态分布是相加的,对于对数正态分布是相乘的。

图2b显示了如何修改Galton的结构以描述这些变量的乘积的分布,这最终导致对数正态分布。为此需要使用比例三角形,较长的一侧位于右侧。设从木板左边缘到漏斗下方第一个障碍物尖端的距离为xm。第一个三角形的下角位于xm·c和xm/c处。因此,粒子在X=xm·c或X=xm/c处与下一行三角形的尖端相遇,两个值的概率相等。在第二行和后续行中,尖端与左边缘距离为x的三角形在x·c和x/c处具有较低的角。因此,粒子的水平位置在每行乘以一个随机变量,其两个可能值c和1/c的概率相等。(原文我没看懂)

因此对于大量的行,最终高度接近对数正态分布。这源于中心极限定理的乘法版本,它证明了许多独立的、同分布的、正随机变量的乘积近似为对数正态分布

对数正态分布的基本性质

如果log(X)为正态分布,则称随机变量X为对数正态分布。变量只能是正值,并且分布向左倾斜(图3a)。

需要两个参数来指定对数正态分布。传统上,使用log(X)的平均值µ和标准差σ(或方差σ2)(图3b)。但是,使用反向转换值可利用原始数据,因而有明显的优势:(1)µ∗:=eµ,σ∗:=eσ。

然后使用X∼Λ(µ∗,σ∗)作为数学表达式,表示X按照对数正态分布,具有中位数µ∗和乘性标准差σ∗。

图3 原尺度(A)和对数尺度(b)的对数正态分布。曲线下的面积,从中位数到两边,分别对应正态分布的一个和两个标准差范围。

比较科学领域中的对数正态分布

来自不同科学分支的对数正态分布的例子揭示了有趣的模式。

地质学和采矿业:在地壳中,元素的浓度和它们的放射性通常遵循对数正态分布。

人类医学:医学上的各种例子都符合对数正态分布。如传染病的潜伏期(从感染到首发症状的时间)。

环境:环境中颗粒、化学物质和有机体的分布通常是对数正态的。例如,播种云和非播种云的降雨量;蜂蜜中羟甲基糠醛含量;空气质量的污染物标准指数。

大气科学和空气生物学:许多大气理化性质服从对数正态分布规律;气溶胶和云的尺寸分布;湍流过程的参数。

植物医学和微生物学:种群对杀菌剂敏感性的分布和种群规模的分布;植物上细菌的丰度因植物种类、细菌类型和环境的不同而不同,并已被发现呈对数正态分布;对数正态分布很好地拟合了植物角质层中的渗透性和溶质移动性。

在大多数动植物群落中,物种丰富度服从(截断)对数正态分布。

对数正态分布的各种应用与食品技术和食品加工工程中的结构表征有关。这种分散结构可以是分散过程中产生的颗粒、液滴和气泡的大小和频率,或者它们可以是滤膜中的孔。后者通常由直径也呈对数正态分布的颗粒形成。

语言学:在语言学中,每个单词的字母数和每个句子的词数符合对数正态分布。

社会科学和经济学:结婚年龄、农场规模和收入。

正态还是对数正态?

进一步考虑正态分布和对数正态分布的模式,以及它们之间的联系和区别,有助于描述和解释与生活中的频率分布有关的现象。

对数正态变异性的范围。由于对正态分布的普遍偏好,我们被要求找出服从正态分布但与对数正态分布不匹配的数据示例。有趣的是,最初的测量并没有产生任何这样的例子。如前所述,即使是女性身高的经典例子也同样符合这两种分布。我们发现的正态分布(但不是对数正态分布)数据的例子包括原始测量的差异、总和、均值或其他函数。这些发现提出了关于对称性在自然界数量变化中的作用的问题。

为什么正态分布如此受欢迎。不考虑统计因素,正态分布比对数正态分布更为人所知的原因有很多。

一个主要的原则似乎是对称性,这是自然界以及我们的文化和思维中实现的基本原则之一。因此,基于对称性的概率分布可能比基于偏斜的概率分布更具内在吸引力。

另外两个原因与简单性有关。

首先,正如Aitchison和Brown(1957,第2页)所说:人类发现加法比乘法更容易运算,因此第一个提出加法误差定律并不奇怪。其次,对正态样本--x±s--建立的简明描述非常方便、广为人知,并且足以表示潜在的分布,这使得到目前为止,处理正态分布比处理对数正态分布更容易。

另一个原因与分布的历史有关:正态分布的已知和应用时间是其对数正态姊妹分布的两倍多。最后,与“对数正态”相比,“正态”这一概念让非统计学家产生了更多积极的联想。由于所有这些原因,正态分布或高斯分布远比大多数人熟悉的对数正态分布更为熟悉。这种偏好导致了两种使数据看起来正常的实用方法,即使它们是不对称的。首先,偏态分布会产生很大的值,这些值可能看起来是异常值。通常的做法是拒绝接受这样的观察,并在没有这些观察的情况下进行分析,从而减少了偏斜,但引入了偏见。其次,偏态数据通常被组合在一起,它们的均值--更具正态分布--用于进一步的分析。当然,遵循这一过程意味着数据的重要特征可能仍未被发现。

为什么对数正态分布通常是原始数据更好的模型。如上所述,相加效应和正态分布之间的联系与乘法效应和对数正态分布之间的联系是平行的。很久以前就注意到,如果来自一维测量的数据在自然界中符合正态分布,那么二维和三维结果,如表面和体积,就不可能是对称的。对数正态分布作为一个合适的模型的一些效应已经在不同的论文中被描述过。有趣的是,即使在生物系统学,也就是分类科学中,每个科的物种数量预计也符合对数正态分布。然而,对数正态分布重要性的最基本指标可能更一般。显然,化学和物理是生活中的基础,而这些学科法则中的主流运算是乘法。例如,在化学中,简单反应的速度取决于所涉及的分子浓度的乘积。均衡条件同样是由乘法作用的因素决定的。由此,一个主要的对比变得显而易见:自然界中支配频率分布的原因通常倾向于对数正态分布,而人们则倾向于正态分布。

对于较小的变异系数,正态分布和对数正态分布都能很好地拟合。对于这些案例,自然会选择适合于变异性增加的相关案例的分布,这符合控制变异性原因的规律。这通常是对数正态分布。

结论

简而言之,本文展示了对数正态分布的基本作用,并为更深入地理解该作用提供了见解。

Aitchison and Brown(1957)在他们的书的第一页说,与其姊妹分布,即正态分布和二项分布相比,对数正态分布“仍然是分布里的灰姑娘(the Cinderella of distributions)”。

尽管有越来越多的证据表明对数正态分布在物理、生物和社会科学中广泛存在,但在经济学中,对数正态分布的知识仍然很分散。

现在的问题是:我们能否开始将我们拥有的关于正态分布和对数正态分布的丰富知识带给公众?、

我们认为,在描述原始数据时,这样做会导致对数正态分布的优先级高于正态分布。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-01-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Listenlii 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档