首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >正态分布重要性

正态分布重要性
EN

Data Science用户
提问于 2021-02-05 06:34:17
回答 1查看 794关注 0票数 0

我最近读过关于概率分布的文章,发现正态分布是非常重要的。有几篇文章指出,建议数据服从正态分布。为什么是这样?如果我的数据服从正态分布而不是其他任何分布,我有什么优势。

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-02-05 07:18:26

这是一个有趣的问题。很抱歉给你一个长篇大论的回答tl:dr;它是一些实际适用性、理论基础、历史包袱(由于计算能力有限)和对可分析、可操作的模型(而不是模拟/计算模型)的痴迷的混合体。在实际问题中使用它时,我们应该非常小心和有洞察力。

详细信息

正态分布的重要性来自以下事实/观察:

  1. 当样本量很大时,许多自然发生的现象似乎遵循正态分布(下文将对此进行详细介绍)。
  2. 在贝叶斯统计中,如果假设参数是正态分布,那么后验分布也是正态分布。这使得计算变得更容易。
  3. 中心极限定理告诉我们,来自任何分布的样本的平均值(无脂肪尾)服从正态分布。因此,正态分布是有用的,并为从样本中进行人口水平参数估计(考虑选举预测)提供了理论依据。但同样地,这假设底层数据来自行为良好且极不可能出现的分布。

总之,正态分布可以被认为是一个很好的基本情况,它在分析上易于处理,易于编码,似乎也适用于许多自然模型。在物理学中,我们考虑线性二阶微分方程来研究许多系统。现在并不是所有的系统实际上都是线性二阶的,但在一些约束条件下,这是一个合理的近似,便于分析和编码。

而过度使用正态分布实际上是有争议的。

  1. 由于我们需要更多的计算能力和基于蒙特卡罗的模拟方法,我们不再局限于仅使用解析的可处理的分布。我们可以使用更符合实际的分布。
  2. 正态分布对于自然现象(班级学生的身高)是有用的,但对大多数人为系统(城镇居民的收入,恐慌期间股票指数的潜在波动)来说,正态分布是不准确的。
  3. 例如,许多对概率金融模型持批评态度的人认为,基本模型使用正态分布。但真正的市场波动大多是厚尾分布(极端结果比正态分布更有可能出现的分布)。如果您想深入研究这一点,请从纳西姆·尼古拉斯·塔勒布“肥肉尾巴的统计后果”开始。有趣的是,如果你看看r/壁虎传奇中GameStop股票价格的剧烈波动,塔勒布指出,如果你考虑一种肥尾分布的话,波动实际上并不是很疯狂。
票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/88957

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档