专栏首页懂点编程的数据分析师[Skill]程序员须掌握的概率统计基础知识

[Skill]程序员须掌握的概率统计基础知识

前言

计算机科学作为理工科一个独特的分支,本质上仍然是建立在逻辑思维上的一门科学,良好的概率论思维有助于设计高效可行的算法。

常见的概率分布

1. 古典概型和几何概型

古典概型适用于随机事件

的样本空间只有有限个样本点,而几何概型适用于样本空间是某一可度量的几何区域。

  • 古典概型

设随机实验

的样本空间为

,其中

为样本点总数,每个样本点出现的概率是相等的,并且每次实验有且仅有一个样本点发生。如果事件

包含

个样本点,那么对应的概率

为:

  • 几何概型

当随机实验

的样本空间是某一可度量的几何区域,并且任意一点在度量(长度、面积和体积等)相同的子区域内是等概率的,则事件

的概率为:

2. 条件概率

即在某个事件已经发生的条件下另一事件发生的概率。

是两个事件,而且

,称:

为在事件

发生的条件下,事件

发生的条件概率。

3. 三条重要的公式:乘法公式、全概率公式和贝叶斯公式

  • 乘法公式

根据条件概率公式,我们可以得到:

可推广到任意正整数

的情形,当

时,有:

  • 全概率公式

也是基于条件概率公式推导的,如果

是样本空间

的一个划分,即满足

互不相交且:

对于任意事件

,我们可以得到全概率公式如下:

  • 贝叶斯公式

整合了乘法公式和全概率公式:

4. 独立事件

如果两事件发生的概率等于这两个事件发生概率的乘积,则可以认为这俩事件独立,即:

这是从统计学上给出的独立定义,现实生活中我们也可以通过经验敲定两个事件的大致独立性,尽管它们可能存在千丝万缕的关联。

5. n重伯努利实验

如果一个随机试验只有两种可能的结果

,且:

那么此试验即是伯努利实验,如果该实验独立重复地进行

次就是

重伯努利试验。设

重伯努利实验中

出现

次的概率,则

可表示为:

这就是二项分布,常记成

常见的分布函数

1.随机变量的分布函数

为一个随机变量,则对任意的实数

,该随机变量的分布函数可表示为:

2.离散型随机变量的分布

  • 离散型随机变量

离散型随机变量指的是随机变量

的全部可能取值为有限多个或可列无穷多个。

记离散型随机变量

取值为

的概率为

,离散型随机变量

的分布律

满足

  • 两点分布

两点分布

中随机变量

的分布律为:

  • 伯努利分布

若随机变量

服从参数为

的二项分布

,则其分布律满足:

其代表的含义表示

重伯努利实验中

恰好发生

次的概率。

  • 泊松分布

若随机变量

服从参数为

的泊松分布

,则其分布律满足:

3.连续型随机变量的分布

  • 连续型随机变量

如果

为连续型随机变量,则存在一个定义在

上的非负函数

,使得对于任意实数

,总有:

  • 均匀分布

若随机变量

服从区间

上的均匀分布

,则其概率密度函数为:

  • 指数分布

若随机变量

服从参数为\lambda的指数分布,则其概率密度函数为:

  • 正态分布

若随机变量

服从参数为

的正态分布

,则其概率密度函数为:

3.离散型二维随机向量

记离散型而维随机向量

取值为

的概率为

,且其分布律满足

4.连续型二维随机向量

如果

是连续型的二维随机向量,则存在一个非负函数

使得对于任意的

均满足:

  • 二维均匀分布

若二维连续型随机向量

在区域

内服从二维均匀分布(其中区域

的面积值为

),则其概率密度函数为:

  • 二维正态分布

若二维连续型随机向量

服从参数为

的二维正态分布

,则其概率密度函数为:

随机变量的数字特征

1.数学期望

数学期望指的就是随机变量在不同概率下的取值的平均值。

离散型随机变量的数学期望为:

连续型随机变量的数学期望为:

2.方差

方差用于描述随机变量取值相对于均值的离散程度,从一定程度上描述了随机变量的“不稳定性”。

为随机变量,则其方差可表述为:

也被称为

的标准差standard deviation或均方差root mean square

3.协方差

协方差用于描述两个随机变量之间的线性联系关系。

为两个随机变量,则其协方差可表述为:

4.相关系数

如果采用协方差来描述两个随机变量之间的线性联系关系,常常会受限于随机变量本身的量纲,数学中常采用标准化的方法来去除量纲的影响,这也是相关系数引入的一个原因。

随机变量

的相关系数可以表述为:

极限定理

极限定理是概率论的基本定理之一,在概率论和数理统计的理论研究和实际应用中都具有重要的意义。在极限定理中,最重要的就是大数定理和中心极限定理。

1.大数定理

大数定理是判断随机变量的算数平均值是否向常数收敛的定律,是概率论和数理统计的基本定律之一。设

是随机变量序列且

存在,令

,若对于任意给定的

,有:

则称随机变量序列

服从大数定律。

  • 伯努利大数定律

次独立重复试验中事件

发生的次数,

是事件

在每次试验中发生的概率,则对于任意的正数

,有:

伯努利大数定理从一定角度揭示了“频率稳定于概率”说法的实质。

  • 切比雪夫大数定律

设随机变量

相互独立,且具有相同的期望与方差,则对于任意的正数

,有:

  • 辛倾大数定律

设随机变量

相互独立,服从相同的分布,且其期望

,则对于任意的正数

,有:

2.切比雪夫不等式

揭示了大数定律背后的数学原理。

设随机变量

具有期望

,方差

,则对于任意

,有:

3.中心极限定理

中心极限定理用于判断随机变量序列部分和的分布是否渐近于正态分布的一类定理。在自然界及生产、科学实践中,一些现象收到许多相互独立的随机因素的影响,如果每个因素的影响都很小,那么总的影响可以看作是服从正态分布,中心极限定理正是从数学上论证了这一现象。

凡是在一定条件下,断定随机变量序列

的部分和

的极限分布为正态分布的定理,均称为中心极限定理。

  • 独立同分布的中心极限定理

设随机变量

相互独立,服从同一分部,并且具有期望和方差:

,则随机变量:

的分布函数收敛至标准正态分布函数。从中心极限定理可知,当

足够大时,

近似服从标准正态分布

4.拉普拉斯中心极限定理

设随机变量

相互独立,并且服从参数为

的两点分布,则对于任意实数

,有:

服从二项分布

,当

足够大时,

近似于正态分布,它是独立同分布的中心极限定理的特殊情况。

数理统计的基本概念

1.总体,个体和简单随机样本

在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体,组成总体的每个基本单元叫做个体。从总体

中随机抽取一部分个体

,称其为取自

的容量为

的样本。

若总体

具有分布函数

,则

的概率联合分布为:

联合概率密度函数:

2.统计量与抽样分布

数理统计的任务是采集和处理带有随机影响的数据,或者说收集样本并对之进行加工,一次对所研究的问题做出一定的结论,这一过程被称为统计推断。在统计推断中,对样本进行加工整理,实际上就是根据样本计算出一些量,使得这些量能够将所研究问题的信息集中起来。这些根据样本计算出的量就是下面将要定义的统计量,因此统计量是样本的某中函数。

是总体

的一个简单随机样本,

为一个

元连续函数,且

中不含任何关于总体的未知函数,则称其为一个统计量,称统计量的分布为抽样分布。

3.常用的统计量

常用的统计量包括样本均值、样本方差、

阶样本原点矩、

阶样本中心矩和顺序统计量等。

4.常用的分布

  • 卡方分布

是来自总体

的一个简单随机样本则称统计量:

为服从自由度为

分布。

  • t分布

,且

相互独立,则称随机变量:

为服从自由度为

分布。

  • F分布

,且

相互独立,则称随机变量:

为服从自由度为

分布。

Reference

[1] 统计建模与R语言

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • [Skill]从零掌握正则表达式

    无论你是出于什么原因需要掌握正则表达式(诸如爬虫、文本检索、后端服务开发或Linux脚本),如果之前从没接触过正则表达式(比如我)很容易在如山般的公式中迷失,以...

    TOMOCAT
  • [机器学习算法]朴素贝叶斯

    表示样本空间中各类别样本所占的比例,根据大数定律,当训练集包含充分的独立同分布样本时,因此

    TOMOCAT
  • [机器学习算法]泊松回归

    对因变量是离散型变量的问题建模时,普通的线性回归模型、定序回归模型和逻辑回归模型已经能解决我们大部分的需求。但有一类特殊的因变量记录某个特定事件出现的次数(有序...

    TOMOCAT
  • 概率论07 联合分布

    我之前一直专注于单一的随机变量及其概率分布。我们自然的会想将以前的结论推广到多个随机变量。联合分布(joint distribution)描述了多个随机变量的概...

    Vamei
  • 暴走农夫之看我如何利用设计缺陷绕过所有*.test.com referer 限制

    json Hijacking 可能是假的json Hijacking,但是绕过referer限制是真的绕过

    用户1467662
  • Java集合类:AbstractCollection源码解析

    用户2140019
  • Java集合类:AbstractCollection源码解析

    用户2140019
  • Workshop丨去中心化,赋能零售业态新生机

    2018年2月2日, 以“智慧零售,赋能品牌新生机”为主题的Workshop分享会在深圳腾讯大厦召开。腾讯云副总裁王祥宇出席会议并发表演讲,与歌力思,3W咖啡...

    腾讯云智慧零售
  • IOS马甲包混淆工程之修改Xcode工程名称

    前段时间项目需求,需要在现有的项目上面开发一个新的项目。如果新建工程的话,会有很多麻烦的问题:

    jiang chen
  • 使用keras内置的模型进行图片预测实例

    keras 模块里面为我们提供了一个预训练好的模型,也就是开箱即可使用的图像识别模型

    砸漏

扫码关注云+社区

领取腾讯云代金券