在机器学习的世界中,以概率分布为核心的研究大都聚焦于正态分布。本文将阐述正态分布的概率,并解释它的应用为何如此的广泛,尤其是在数据科学和机器学习领域,它几乎无处不在。
我将会从基础概念出发,解释有关正态分布的一切,并揭示它为何如此重要。
作者:Farhad Malik
译者:Monanfei
来源:AI科技大本营(ID: rgznai100)
▲1893年人类身高分布图,作者:Alphonse Bertillon
本文的主要内容如下:
考虑一个预测模型,该模型可以是我们的数据科学研究中的一个组件。
世界上存在着很多不同的概率分布,而最广泛使用的就是正态分布了。
我们可以画出正态分布的概率分布曲线,可以看到该曲线是一个钟型的曲线。如果变量的均值,模和中值相等,那么该变量就呈现正态分布。
如下图所示,为正态分布的概率分布曲线:
理解和估计变量的概率分布非常重要。
下面列出的变量的分布都比较接近正态分布:
此外,生活中有大量的变量都是具有 x % 置信度的正态变量,其中,x<100。
正态分布只依赖于数据集的两个特征:样本的均值和方差。
正态分布的这种统计特性使得问题变得异常简单,任何具有正态分布的变量,都可以进行高精度分预测。
值得注意的是,大自然中发现的变量,大多近似服从正态分布。
正态分布很容易解释,这是因为:
正态分布是我们熟悉的正常行为。
这个现象可以由如下定理解释:当在大量随机变量上重复很多次实验时,它们的分布总和将非常接近正态分布。
由于人的身高是一个随机变量,并且基于其他随机变量,例如一个人消耗的营养量,他们所处的环境,他们的遗传等等,这些变量的分布总和最终是非常接近正态的。
这就是中心极限定理。
我们从上文的分析得出,正态分布是许多随机分布的总和。如果我们绘制正态分布密度函数,那么它的曲线将具有以下特征:
如上图所示,该钟形曲线有均值为 100,标准差为1:
更进一步,如上图所示:
这使我们可以轻松估计变量的变化性,并给出相应置信水平,它的可能取值是多少。例如,在上面的灰色钟形曲线中,变量值在 99-101 之间的可能性为 68.2%。
正态概率分布函数的形式如下:
概率密度函数基本上可以看作是连续随机变量取值的概率。
正态分布是钟形曲线,其中mean = mode = median。
标准差越大,样品中的变化性越大。
最简单的方法是加载 data frame 中的所有特征,然后运行以下脚本(使用pandas 库):
DataFrame.hist(bins=10)
#Make a histogram of the DataFrame.
该函数向我们展示了所有变量的概率分布。
如果我们将大量具有不同分布的随机变量加起来,所得到的新变量将最终具有正态分布。这就是前文所述的中心极限定理。
服从正态分布的变量总是服从正态分布。例如,假设 A 和 B 是两个具有正态分布的变量,那么:
因此,使用正态分布,预测变量并在一定范围内找到它的概率会变得非常简单。
我们有多种方法将非正态分布转化为正态分布:
一旦我们收集到变量的样本数据,我们就可以对样本进行线性变化,并计算Z得分:
我们可以使用 SciPy 包将数据转换为正态分布:
scipy.stats.boxcox(x, lmbda=None, alpha=None)
3. 使用 Yeo-Johnson 变换
另外,我们可以使用 yeo-johnson 变换。Python 的 sci-kit learn 库提供了相应的功能:
sklearn.preprocessing.PowerTransformer(method=’yeojohnson’,standardize=True, copy=True)
10 正态分布的问题
由于正态分布简单且易于理解,因此它也在预测研究中被过度使用。假设变量服从正态分布会有一些显而易见的缺陷。例如,我们不能假设股票价格服从正态分布,因为价格不能为负。因此,我们可以假设股票价格服从对数正态分布,以确保它永远不会低于零。
我们知道股票收益可能是负数,因此收益可以假设服从正态分布。
假设变量服从正态分布而不进行任何分析是愚蠢的。
变量可以服从Poisson,Student-t 或 Binomial 分布,盲目地假设变量服从正态分布可能导致不准确的结果。 11 总结
本文阐述了正态分布的概念和性质,以及它如此重要的原因。
希望能帮助到你。
原文链接:http://bit.ly/2NyetFz
有话要说?
Q: 这么神奇的正态分布,你玩转了吗?
欢迎留言与大家分享
猜你想看?
更多精彩?
在公众号对话框输入以下关键词
查看更多优质内容!
PPT | 报告 | 读书 | 书单 | 干货
大数据 | 揭秘 | Python | 可视化
AI | 人工智能 | 5G | 区块链
机器学习 | 深度学习 | 神经网络
1024 | 段子 | 数学 | 高考
据统计,99%的大咖都完成了这个神操作
觉得不错,请把这篇文章分享给你的朋友
转载 / 投稿请联系:baiyu@hzbook.com
更多精彩,请在后台点击“历史文章”查看