前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >为什么数据科学家都喜欢高斯分布

为什么数据科学家都喜欢高斯分布

作者头像
崔庆才
发布2019-09-04 15:36:14
1.4K0
发布2019-09-04 15:36:14
举报
文章被收录于专栏:进击的Coder

编者按:数据科学家Abhishek Parbhakar简洁明了地解释了机器学习中高斯分布如此受欢迎的原因。

对深度学习和机器学习工程师而言,在世界上所有的概率模型中,高斯分布(Gaussian distribution)模型最为引人注目。即使你从来没有进行过AI项目,有很大的几率你曾经遇到过高斯模型。

高斯分布,又称为正态分布(Normal distribution),常常可以通过其标志性的钟形曲线识别出来。高斯分布如此流行,有三大原因。

高斯概率分布函数

在自然现象中普遍存在

所有的模型都是错的,但有些模型有用! —— George Box

扩散中的微粒的位置可以用高斯分布描述

自然科学和社会科学中有极其大量的过程天然遵循高斯分布。即使当它们并不遵循高斯分布的时候,高斯分布也往往提供最佳的逼近。一些例子:

  • 成人的身高、血压、智商
  • 扩散中的微粒位置
  • 测量误差

数学上的原因:中心极限定理

二维平面随机行走两百万步

中心极限定理表明,满足一定条件时,大量相互独立的随机变量经适当标准化后,收敛于高斯分布。例如,随机行走的总距离分趋向于高斯概率分布。

这一定理意味着专门为高斯模型开发的大量科学方法和统计学方法同样适用于可能牵涉其他类型分布的广阔领域内的问题。

可以认为,这一定理解释了为什么这么多自然现象遵循高斯分布。

另外,高斯分布在一些转换后仍然是高斯分布:

  • 高斯函数经傅里叶变换后,所得仍为高斯函数。
  • 两个高斯函数的积仍然是高斯函数。
  • 两个高斯函数的卷积仍然是高斯函数。
  • 两个符合高斯分布的独立随机变量之和仍然符合高斯分布。

简单性

奥卡姆剃刀原则强调在其他条件相同时,最简单的解是最佳解

对每个高斯模型逼近而言,可能存在一个提供更好的逼近的复杂多参数分布。然而,我们仍然选择高斯模型,因为它大大简化了数学!

  • 均值、中位数、众数均相等
  • 整个分布仅需指定两个参数——均值和方差

高斯分布得名于伟大的数学家和物理学家卡尔·弗里德里希·高斯(Carl Friedrich Gauss)。

来源:Medium 编译:weakish 原文地址:https://towardsdatascience.com/why-data-scientists-love-gaussian-6e7a7b726859

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-06-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 进击的Coder 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 在自然现象中普遍存在
  • 数学上的原因:中心极限定理
  • 简单性
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档