在统计学中概率分布中的概率密度函数PDF,概率质量PMF,累积分布CDF

一. 概念解释

PDF:概率密度函数(probability density function), 在数学中,连续型随机变量的概率密度函数(在不至于混淆时可以简称为密度函数)是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。

PMF : 概率质量函数(probability mass function), 在概率论中,概率质量函数是离散随机变量在各特定取值上的概率。

CDF : 累积分布函数 (cumulative distribution function),又叫分布函数,是概率密度函数的积分,能完整描述一个实随机变量X的概率分布。

二. 数学表示

PDF:如果XX是连续型随机变量,定义概率密度函数为fX(x)fX(x)f_X(x),用PDF在某一区间上的积分来刻画随机变量落在这个区间中的概率,即

Pr(a≤X≤b)=∫bafX(x)dxPr(a≤X≤b)=∫abfX(x)dx\Pr\left(a \leq X \leq b\right) =\int_{a}^{b} f_X(x) dx PMF:如果XX离散型随机变量,定义概率质量函数为fX(x)fX(x)f_X(x),PMF其实就是高中所学的离散型随机变量的分布律,即 fX(x)=Pr(X=x)fX(x)=Pr(X=x)f_X(x)=\Pr\left( X=x \right) 比如对于掷一枚均匀硬币,如果正面令X=1X=1\text{$X$}=1,如果反面令X=0X=0X=0,那么它的PMF就是 fX(x)={12 if x∈{0,1}0 if x∉{0,1}fX(x)={12 if x∈{0,1}0 if x∉{0,1}f_X\left( x \right) =\begin{cases} &\frac{1}{2} \text{ if } x\in\left \{ 0,1 \right \} \\ & 0\text{ if } x\notin\left \{ 0,1 \right \}\end{cases} CDF:不管是什么类型(连续/离散/其他)的随机变量,都可以定义它的累积分布函数,有时简称为分布函数。

对于连续型随机变量,显然有 FX(x)=Pr(X≤x)=∫x−∞fX(t)dtFX(x)=Pr(X≤x)=∫−∞xfX(t)dtF_X\left( x \right) =\Pr\left( X\leq x \right) =\int_{-\infty}^{x}f_X(t)dt 那么CDF就是PDF的积分,PDF就是CDF的导数。 对于离散型随机变量,其CDF是分段函数,比如举例中的掷硬币随机变量,它的CDF为 FX(x)=Pr(X≤x)=⎧⎩⎨⎪⎪0 if x<012 if 0≤x<11 if x≥1FX(x)=Pr(X≤x)={0 if x<012 if 0≤x<11 if x≥1F_X\left( x \right) =\Pr\left ( X\leq x \right )=\begin{cases}& 0\text{ if } x<0 \\ & \frac{1}{2}\text{ if } 0\leq x< 1 \\& 1\text{ if }x\geq 1\end{cases}

三.概念分析

 根据上述,我们能得到一下结论:

 1)PDF是连续变量特有的,PMF是离散随机变量特有的;  2)PDF的取值本身不是概率,它是一种趋势(密度)只有对连续随机变量的取值进行积分后才是概率,也就是说对于连续值确定它在某一点的概率是没有意义的;  3)PMF的取值本身代表该值的概率。

四.分布函数的意义

  我们从两点来分析分布函数的意义:   1.为什么需要分布函数?

  对于离散型随机变量,可以直接用分布律来描述其统计规律性,而对于非离散型的随机变量,如连续型随机变量,因为我们无法一一列举出随机变量的所有可能取值,所以它的概率分布不能像随机变量那样进行描述,于是引入PDF,用积分来求随机变量落入某个区间的概率。分布律不能描述连续型随机变量,密度函数不能描述离散随机变量,因此需要找到一个统一方式描述随机变量统计规律,这就有了分布函数。另外,在现实生活中,有时候人们感兴趣的是随机变量落入某个范围内的概率是多少,如掷骰子的数小于3点的获胜,那么考虑随机变量落入某个区间的概率就变得有现实意义了,因此引入分布函数很有必要。   2. 分布函数的意义

  分布函数F(x)F(x)在点xx处的函数值表示XX落在区间(−∞,x](−∞,x]内的概率,所以分布函数就是定义域为RR的一个普通函数,因此我们可以把概率问题转化为函数问题,从而可以利用普通的函数知识来研究概率问题,增大了概率的研究范围。

五:深度理解参考文献

http://www.dataguru.cn/thread-150756-1-1.html https://www.zhihu.com/question/23022012 https://www.zhihu.com/question/36853661 https://www.zhihu.com/question/21911186 http://wenku.baidu.com/view/823a0bb9f111f18582d05a14.html

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏智能算法

神经网络也可以有逻辑——解析视觉推理(Visual Reasoning)

前言 在我们的上一篇文章最前沿:百家争鸣的Meta Learning/Learning to learn (点击「阅读原文」获取此文)中,我们谈到了星际2 需要...

37880
来自专栏企鹅号快讯

Uber提出SBNet:利用激活的稀疏性加速卷积网络

选自Uber 作者:Mengye Ren、Andrei Pokrovsky、Bin Yang、Raquel Urtasun 机器之心编译 参与:Panda 自动...

22180
来自专栏大数据文摘

从概念到应用:一文搞定数据科学和机器学习的最常见面试题

18860
来自专栏机器学习算法与Python学习

干货 | 8个方法解决90%的NLP问题

14930
来自专栏人工智能头条

神经网络也可以有逻辑——解析视觉推理(Visual Reasoning)

46420
来自专栏IT派

干货 | 8个方法解决90%的NLP问题

每一个机器学习问题都始于数据,比如一组邮件、帖子或是推文。文本信息的常见来源包括:

11030
来自专栏CVer

[计算机论文速递] 2018-03-23

通知:这篇文章有15篇论文速递信息,涉及目标检测、目标跟踪、姿态估计、SLAM、GAN、行为识别、去雾、网络优化等方向 创办CVer公众号,渐渐半个多月了,很感...

426170
来自专栏刘笑江的专栏

Reinforce Learning

21760
来自专栏张耀琦的专栏

【机器学习入门系列】Regression 回归:案例研究

本文通过预测 Pokemon Go 的 Combat Power (CP) 值的案例介绍机器学习的回归模型,举例介绍了操作步骤,通过方程的好坏最终确定了最好的损...

1.3K10
来自专栏绿巨人专栏

强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)

40260

扫码关注云+社区

领取腾讯云代金券