常见分布1、泊松分布2、二项分布3、正态分布4、多项分布(二项分布推广)5、二维正态分布

1、泊松分布

泊松分布适合于描述单位时间(或空间)内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数,一块产品上的缺陷数,显微镜下单位分区内的细菌分布数等等。

期望

2、二项分布

二项分布就是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。

期望

from scipy.special import perm
from scipy.special import comb

plt.figure(figsize=(16,8),dpi=98)
p1 = plt.subplot(121)
p2 = plt.subplot(122)
#p1 = plt.subplot(121,aspect=5/2.5)
#p2 = plt.subplot(122,aspect=0.5/0.05)

I = range(30)
mu = 10
pi = [np.exp(-mu)*mu**i/np.math.factorial(i) for i in I]
p1.plot(I, pi, 'r')

def plotnp(pindex,n, mu, style, lable):
    p = 1.0*mu/n
    b = [comb(n,i)*p**i*(1-p)**(n-i) for i in I]
    pindex.plot(I, b, style, label=lable,linewidth=2)

plotnp(p1,50, 10, 'b--', 'n=50')
plotnp(p1,100, 10, 'g-.', 'n=100')
plotnp(p1,200, 10, 'b-.', 'n=200')
plotnp(p1,1000, 10, 'g:', 'n=1000')
p1.legend()
# plot the box
tx0 = 7
tx1 = 13
ty0 = 0.1
ty1 = 0.15
sx = [tx0,tx1,tx1,tx0,tx0]
sy = [ty0,ty0,ty1,ty1,ty0]
p1.plot(sx,sy,"purple")

I = range(7,13)
pi = [np.exp(-mu)*mu**i/np.math.factorial(i) for i in I]
p2.plot(I, pi, 'r')

plotnp(p2,50, 10, 'b--', 'n=50')
plotnp(p2,100, 10, 'g-.', 'n=100')
plotnp(p2,200, 10, 'b-.', 'n=200')
plotnp(p2,1000, 10, 'g:', 'n=1000')
p2.legend()

xy=(13,0.12)
xy2 = (6.9,0.125)
con = ConnectionPatch(xyA=xy2,xyB=xy,coordsA="data",coordsB="data",
        axesA=p2,axesB=p1)
p2.add_artist(con)

plt.show()

上图中泊松分布λ=10,二项分布固定np=λ=10,一般在λ概率取的最值,当n趋向∞时,图中n=1000已经非常逼近泊松分布(红色线)。

3、正态分布

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布 的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

密度函数

随机变量X服从一个数学期望为μ、方差为σ2的正态分布,记为N(μ,σ2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布

import numpy as np

def fun(x, mu=0, sigma=1):
    return 1.0/(np.sqrt(2*np.pi)*sigma)*np.exp(-(x-mu)**2/(2*(sigma**2)))

mu = 50
x = np.linspace(0,2*mu,2*mu)

plt.plot(x, fun(x,mu, np.sqrt(mu)))

I = range(2*mu)
pi = [np.exp(-mu)*mu**i/np.math.factorial(i) for i in I]
plt.plot(I, pi, 'r')
plt.show()

泊松分布均值与方差都是λ图中&lambda=50,非常逼近正态分布均值μ=50,方差=50,泊松分布的极限分布是正态分布,这样可以用正态分布近似泊松分布。

4、多项分布(二项分布推广)

某随机实验如果有k个可能结局A1、A2、…、Ak,分别将他们的出现次数记为随机变量X1、X2、…、Xk,它们的[概率分布]分别是p1,p2,…,pk,那么在n次采样的总结果中,A1出现n1次、A2出现n2次、…、Ak出现nk次的这种事件的出现概率P有下面公式:

比如掷骰子会有6中结果,每种结果概率都是1/6,假如我掷6次,各数字都出现一次的概率是多少 p(X1=1,X2=1...X6=1)=6!*1/6 * 1/6... * 1/6

5、二维正态分布

密度函数

fig = plt.figure()  
ax = Axes3D(fig)  

x, y = np.mgrid[-5:5:.1, -5:5:.1]
pos = np.empty(x.shape + (2,))
print pos.shape
pos[:, :, 0] = x; pos[:, :, 1] = y
# 函数参数是均值[0,0],与协方差矩阵[[2.0, 0.3], [0.3, 0.5]]
rv = multivariate_normal([0, 0], [[2.0, 0.3], [0.3, 0.5]])
ax.contourf(x, y, rv.pdf(pos),zdir='z',offset=0)
ax.plot_surface(x, y, rv.pdf(pos)+0.1, rstride=1, cstride=1, cmap=plt.cm.RdBu)  
plt.show()

下面是使用stats软件函数

mu = 0
sigma = 1
x = np.arange(-5,5,0.1)
y = stats.norm.pdf(x, mu, sigma)
plt.plot(x,y)
plt.title("Normal:$\mu$=%.1f, $\sigma^2$=%.1f" %(mu,sigma))
plt.xlabel("x")
plt.show()
from scipy import stats

n =10 
p =0.3
k = np.arange(0,21)
binomial = stats.binom.pmf(k,n,p)
plt.plot(k, binomial)
plt.show()
binom_sim = stats.binom.rvs(n=10,p=0.3, size = 1000)
#print binom_sim
print "Mean:%g"%np.mean(binom_sim)
print "SD:%g"%np.std(binom_sim, ddof=1)
# 这里 hist 函数的输入参数有 ages 数组、直方图的 bins 数目(即区间数,这里为 20),
# 同时,还使用了 normed=True 参数来正则化直方图,即让每个方条表示年龄在该区间内的数量占总数量的比[1]  。

plt.hist(binom_sim, bins = 10, normed= 0)
plt.xlabel("x")
plt.ylabel("density")
plt.show()

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI研习社

MIT 6.S094· 深度学习 | 学霸的课程笔记,我们都替你整理好了

深度学习:为多项人工智能技术服务的成套技术,近年来伴随着研究的不断深入和GPU能力的不断拓展,它也变得更加强大,SDC就是能够利用这些技术的系统。

14620
来自专栏专知

【干货】2017最火的五篇深度学习论文 总有一篇适合你

【导读】最近,MIT博士生学生GREGORY J STEIN在博客中总结了2017年他最喜欢的深度学习论文,并且列出了这一年对他研究思考影响最深的五篇论文,其中...

299110
来自专栏玉树芝兰

如何用机器学习处理二元分类任务?

图像是猫还是狗?情感是正还是负?贷还是不贷?这些问题,该如何使用合适的机器学习模型来解决呢?

11620
来自专栏CreateAMind

Sensorimotor Robot Policy Training using RL(ref163篇 90页) 笔记 超长

14840
来自专栏企鹅号快讯

2017最火的五篇深度学习论文 总有一篇适合你

【导读】最近,MIT博士生学生GREGORY J STEIN在博客中总结了2017年他最喜欢的深度学习论文,并且列出了这一年对他研究思考影响最深的五篇论文,其中...

22250
来自专栏智能算法

数据+进化算法=数据驱动的进化优化?进化算法PK数学优化

数据驱动的进化优化是什么,仅仅就是数据+优化算法吗?数据驱动的进化优化适用于哪些应用场景?传统的数学优化方法是否迎来了新一轮的挑战。本文将为您深入浅出的解答以上...

21930
来自专栏量化投资与机器学习

因子的有效性分析基于7种机器学习算法【系列54】

今天,继续我们的机器学习应用量化投资系列。本期我们介绍一篇研究报告,详细的介绍了7中机器学习算法在因子有效性上的展现。希望给大家在写策略时做一些参考借鉴。 前言...

52680
来自专栏目标检测和深度学习

MIT 6.S094· 深度学习 | 学霸的课程笔记,我们都替你整理好了

雷锋字幕组获MIT课程团队授权翻译自动驾驶课程,视频链接:http://www.mooc.ai/course/483/info 我们为你整理了每一个Lectu...

12820
来自专栏一直在跳坑然后爬坑

描述统计学相关概念笔记整理

定义:一组数据向其中心值靠拢的倾向和程度 测度:寻找数据的水平代表值或中心值 常用的测度指标:①均值②中位数③众数

15040
来自专栏数据科学与人工智能

【智能】机器学习:信用风险建模中的挑战,教训和机遇

由于数据可用性和计算能力的快速增长,机器学习现在在技术和业务中发挥着至关重要的作用。机器学习对信用风险建模应用程序有重大贡献。 使用两个大型数据集,我们分析了一...

13130

扫码关注云+社区

领取腾讯云代金券