前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据挖掘学习小组之(概率分布)

数据挖掘学习小组之(概率分布)

作者头像
数据处理与分析
发布2019-08-05 17:05:05
6600
发布2019-08-05 17:05:05
举报

基本概念

随机变量

随机变量(random variable)表示随机试验各种结果的实值单值函数。随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达!

古典概率

古典概率通常又叫事前概率,是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率。

条件概率

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。

离散变量

离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。如职工人数、工厂数、机器台数等。

连续变量

在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值

期望值

在概率论和统计学中,期望值(或数学期望、或均值,亦简称期望,物理学中称为期待值)是指在一个离散性随机变量试验中每次可能结果的概率乘以其结果的总和

离散变量概率分布

二项分布

二项分布是由伯努利提出的概念,指的是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

伯努利分布

与二项分布一样

泊松分布

Poisson分布,是一种统计与概率学里常见到的离散概率分布,由法国数学家西莫恩·德尼·泊松(Siméon-Denis Poisson)在1838年时发表。

连续变量概率分布

均匀分布

在概率论和统计学中,均匀分布也叫矩形分布,它是对称概率分布,在相同长度间隔的分布概率是等可能的。均匀分布由两个参数a和b定义,它们是数轴上的最小值和最大值,通常缩写为U(a,b)。

正态分布

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

指数分布

在概率理论和统计学中,指数分布(也称为负指数分布)是描述泊松过程中的事件之间的时间的概率分布,即事件以恒定平均速率连续且独立地发生的过程。这是伽马分布的一个特殊情况。它是几何分布的连续模拟,它具有无记忆的关键性质。除了用于分析泊松过程外,还可以在其他各种环境中找到。

伽玛分布

伽玛分布(Gamma Distribution)是统计学的一种连续概率函数,是概率统计中一种非常重要的分布。“指数分布”和“χ2分布”都是伽马分布的特例。

偏态分布

偏态分布是与“正态分布”相对,分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种。可以通过峰度偏度的计算,衡量偏态的程度。可分为正偏态负偏态,前者曲线右侧偏长,左侧偏短;后者曲线左侧偏长,右侧偏短。

贝塔分布

贝塔分布(Beta Distribution) 是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数,在机器学习和数理统计学中有重要应用。在概率论中,贝塔分布,也称Β分布,是指一组定义在(0,1) 区间的连续概率分布。

威布尔分布

威布尔分布,又称韦氏分布,是可靠性分析和寿命检验的理论基础。

威布尔分布在可靠性工程中被广泛应用,尤其适用于机电类产品的磨损累计失效的分布形式。由于它可以利用概率值很容易地推断出它的分布参数,被广泛应用于各种寿命试验的数据处理。

卡方分布

若n个相互独立的随机变量ξ₁,ξ₂,…,ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布(chi-square distribution)。

F分布

F分布是1924年英国统计学家R.A.Fisher提出,并以其姓氏的第一个字母命名的。它是一种非对称分布,有两个自由度,且位置不可互换。F分布有着广泛的应用,如在方差分析、回归方程的显著性检验中都有着重要的地位。

代码

代码语言:javascript
复制
'''
Created on 2019年8月4日

@author: uYaoQi
'''

from scipy import stats as st
import matplotlib as mpl
import numpy as np
import matplotlib.pyplot as plt

#防止乱码
mpl.rcParams['font.sans-serif'] = [u'SimHei']
mpl.rcParams['axes.unicode_minus'] = False

# 伯努利分布
n = 100 
p = 0.05
k = np.arange(0,n)
binomial = st.binom.pmf(k,n,p)
plt.plot(k,binomial,'o-')
plt.title('伯努利分布:n=%i,p=%.2f'%(n,p),fontsize=15)
plt.xlabel('实验成功次数')
plt.ylabel('成功概率',fontsize=15)
plt.grid(True)
plt.show()

#泊松分布
x = np.random.poisson(lam=8, size=10000)  # lam为λ size为k
pillar = 30
a = plt.hist(x, bins=pillar, density=True, range=[0, pillar], color='g', alpha=0.5)
plt.title('泊松分布',fontsize=15)
plt.xlabel('x柱子个数')
plt.ylabel('概率',fontsize=15)
plt.plot(a[1][0:pillar], a[0], 'r')
plt.grid()
plt.show()

#正态分布

loc = 1
scale = 2.0
x = np.linspace(st.norm.ppf(0.01,loc,scale),st.norm.ppf(0.99,loc,scale),100)
plt.plot(x, st.norm.pdf(x,loc,scale),'b-',label = 'norm')
plt.title(u'正态分布概率密度函数')
plt.show()

#指数分布
lambdaUse = 2
loc = 0
scale = 1.0/lambdaUse
x = np.linspace(st.expon.ppf(0.01,loc,scale),st.expon.ppf(0.99,loc,scale),100)
plt.plot(x, st.expon.pdf(x,loc,scale),'b-',label = 'expon')
plt.title(u'指数分布概率密度函数')
plt.show()

#卡方分布
x = np.linspace(0,20,100)
y = st.chi2.pdf(np.linspace(0,20,100),df=4)
#PDF  概率密度函数
plt.plot(x,y)#绘制0到20的卡方分布曲线,给定自由度为4
plt.fill_between(x,y,alpha=0.15) #填充曲线
plt.title(u'卡方分布:自由度为四')
plt.show()

#F分布
dfn, dfd = 29, 18
x =  st.f.rvs(dfn, dfd, size=500)
mu =np.mean(x) #计算均值
sigma =np.std(x)
num_bins = 30 #直方图柱子的数量
n, bins, patches = plt.hist(x, num_bins,density=1, facecolor='blue', alpha=0.5)
#拟合一条最佳正态分布曲线y
y = st.norm.pdf(bins, mu, sigma)
plt.plot(bins, y, 'r--')
plt.title(r'F分布')
plt.subplots_adjust(left=0.15)#左边距
plt.show()
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据处理与分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 基本概念
    • 随机变量
      • 古典概率
        • 条件概率
          • 离散变量
            • 连续变量
              • 期望值
              • 离散变量概率分布
                • 二项分布
                  • 伯努利分布
                    • 泊松分布
                    • 连续变量概率分布
                      • 均匀分布
                        • 正态分布
                          • 指数分布
                            • 伽玛分布
                              • 偏态分布
                                • 贝塔分布
                                  • 威布尔分布
                                    • 卡方分布
                                      • F分布
                                      • 代码
                                      领券
                                      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档