机器学习储备(12):二项分布的例子解析

交流思想,注重分析,更注重通过实例让您通俗易懂。包含但不限于:经典算法,机器学习,深度学习,LeetCode 题解,Kaggle 实战。期待您的到来!

01

二项分布

如果实验满足以下两种条件:

  1. 在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立;
  2. 相互独立,与其它各次试验结果无关;
  3. 事件发生与否的概率在每一次独立试验中都保持不变。

则实验的结果对应的分布为二项分布。

当试验次数为1时,二项分布服从0-1分布。

02

例子解析

例如,一堆苹果有好的,有坏的,从中取10次,定义随机变量:从中取得好苹果的个数 X,那么认为X服从二项分布。

实验得到的结果:比如经过10次实验后分布结果为:7好,3坏;再经过10次实验后分布结果为:8好,2坏。经过这20次实验,可以根据最大似然估计求出我们可求出二项分布的参数theta:从这堆苹果中取到一个好苹果的概率。

因为在我们所做的20次实验中,出现了15好,5坏,因此一次取到好苹果概率为:15/20 = 0.75,根据最大似然估计的精神,认为从整个样本中取到一个好苹果的概率也为:0.75。

下面看下,出现这种分布的概率有多大,由二项分布的概率计算公式:

其中:k表示出现好苹果的个数,p表示一次实验出现好苹果的概率

k的取值范围为:0~m,最小值为0个好苹果,最大值为m个好苹果(所有的都是好苹果)。

03

二项分布图

在以上我们的20次随机试验中,最终得到了15个好果,那么如果依次看下好苹果的个数 k = 0~20,它们的各自的分布概率P,变化曲线图是怎样的呢?

为此在Jupyter NoteBook中实验下,

#计算组合数

from scipy.special import comb, perm

import numpy as np

import matplotlib.pyplot as plt

#二项分布概率计算公式

def getp(m,n,pa):

if m < n:

return 0.0

return comb(m,n)*(pa**n)*((1-pa)**(m-n))

#获得画图数据

klist = np.arange(21)

plist = [ getp(m=20,n=k,pa=0.75) for k in klist]

plt.plot(klist,plist)

plt.xlabel('number of good apples')

plt.ylabel('k-distribution proba')

plt.title('distribution proba')

plt.xticks(np.arange(0,22,1))

plt.grid()

plt.show()

最终得到的二项分布图如下:可以看到在k = 15时,取得概率的最大值为0.2,也就是说在取到15个好苹果的概率是最大的。

取到0~8个好果的概率是很低的,但是取到19,20个好果的概率同样也是很低的

说明一点:

  • 在这20个苹果分布中,我们对所取得的好果的个数的期望值:20*0.75=15个,可以看到上面的二项分布图在 k = 15即取得15个好果的概率是最大的,言外之意,期望值就是分布中最有可能发生的那个分布吧:15好果,5坏果。

04

二项分布总结

二项分布是随机变量为离散型随机变量且当试验次数为1时服从0-1分布,它是重复n次的独立的伯努利试验。这种分布下,对个数的期望等于二项分布中概率发生最大的取值个数。

原文发布于微信公众号 - 算法channel(alg-channel)

原文发表时间:2017-11-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

达观数据NLP技术的应用实践和案例分析

达观文本挖掘系统整体方案 达观文本挖掘系统整体方案包含了NLP处理的各个环节,从处理的文本粒度上来分,可以分为篇章级应用、短串级应用和词汇级应用。 篇章级应用有...

516110
来自专栏机器学习算法与Python学习

Machine Learning -- Bayesian network

链接地址:http://www.dataguru.cn/thread-508373-1-1.html 0 引言 事实上,介绍贝叶斯定理、贝叶斯方法、贝叶斯推断的...

49660
来自专栏一心无二用,本人只专注于基础图像算法的实现与优化。

关于Retinex图像增强算法的一些新学习。

 最近再次看了一下IPOL网站,有一篇最近发表的文章,名字就是Multiscale Retinex,感觉自己对这个已经基本了解了,但还是进去看了看,也有一些收...

47360
来自专栏携程技术中心

个性化推荐沙龙 | 推荐系统中基于深度学习的混合协同过滤模型

董鑫,携程基础业务部BI团队高级算法工程师,博士毕业于上海交通大学计算机科学与技术系。 近些年,深度学习在语音识别、图像处理、自然语言处理等领域都取得了很大的突...

452130
来自专栏CSDN技术头条

推荐系统中基于深度学习的混合协同过滤模型

近些年,深度学习在语音识别、图像处理、自然语言处理等领域都取得了很大的突破与成就。相对来说,深度学习在推荐系统领域的研究与应用还处于早期阶段。 携程在深度学习与...

426100
来自专栏AI研习社

Quora Question Pairs 竞赛冠军经验分享:采用 4 层堆叠,经典模型比较给力

AI 研习社按:今天要介绍的比赛是 Quora Question Pairs,该比赛的目的是将具有相同意图的问题正确配对。最近本次竞赛的冠军在 Kaggle 社...

495110
来自专栏Python小屋

使用Python+pillow绘制矩阵盖尔圆

盖尔圆是矩阵特征值估计时常用的方法之一,其定义为: ? 与盖尔圆有关的两个定理为: 定理1:矩阵A的所有特征值均落在它的所有盖尔圆的并集之中。 定理2:将矩阵...

32040
来自专栏Petrichor的专栏

论文阅读: R-CNN

版权声明:转载请注明出处 https://blog.csdn.net/JNingWei/article/details/80189868 ...

16720
来自专栏奇点大数据

游戏AI小试牛刀(2)

上次我们说到用深度学习来做斗地主游戏AI的一个实验项目,这次我们来说说技术实现层面的一些问题。 对于这样一个应用场景来说,我们是可以把它当做类似于图片分类的场...

38550
来自专栏Petrichor的专栏

深度学习: Zero-shot Learning / One-shot Learning / Few-shot Learning

在 迁移学习 中,由于传统深度学习的 学习能力弱,往往需要 海量数据 和 反复训练 才能修得 泛化神功 。为了 “多快好省” 地通往炼丹之路,炼丹师们开始研究 ...

41830

扫码关注云+社区

领取腾讯云代金券