还记得前段时间看过一篇文章,就是调查大家疫情期间都干了什么,有一条是疫情期间终于弄清楚了PDF和CDF的区别。PDF、PMF、CDF这几个概念确实很容易混淆。今天就来捋一捋这几个概念。
PDF:是英文单词 probability density function 的缩写,翻译过来是指概率密度函数,是用来描述连续型随机变量的输出值,在某个确定的取值点附近的可能性的大小的函数。
PMF : 是英文单词 probability mass function 的缩写, 翻译过来是指概率质量函数,是用来描述离散型随机变量在各特定取值上的概率。
CDF : 是英文单词 cumulative distribution function 的缩写,翻译过来是指累积分布函数,又叫分布函数,是概率密度函数的积分,用来表示离散型随机变量x的概率分布。
总结一下就是上面三者的横轴都是随机变量x的取值,PDF的纵轴表示连续型随机变量x出现的可能性(非概率),PMF的纵轴表示离散型随机变量x出现的概率,CDF的纵轴表示连续型随机变量x的概率。
相信大家看完上面的概念以后对这几个还是有点懵,接下来我们就仔细讲讲这些概念的来龙去脉。
频率分布条形图主要用在离散数据中,横轴为一个个具体的点(类别),纵轴为这些点对应的频率。
当试验次数足够多时,我们可以用频率来代替概率,也就是可以把频率分布条形图中的纵轴当作每个类别出现的概率值。此时的频率分布条形图就可以当作是PMF图。
在频率分布直方图中横轴表示众多个连续变量离散化以后的区间,这个区间的大小称为组距,纵轴表示频率/组距。
上图中每个长方形的面积就是该区间的频率,即概率。
当长方形的宽度无限小,即组距无限小的时候,频率分布直方图就无限接近于下方这样的光滑曲线,我们把这条曲线叫做概率密度曲线,即PDF。
累计分布函数就是从上图中的概率密度曲线的最左边开始,然后逐渐往右求取曲线下方的面积,即概率。
以上就是关于PDF、PMF、CDF三者之间的异同情况,如果对公式推导方面感兴趣的话可以直接上网搜索即可。