概率与统计——条件概率、全概率、贝叶斯、似然函数、极大似然估计

条件概率

事物A独立发生的概率为

,事物B独立发生的概率为

,那么有:

表示事物B发生之后事物A发生的概率;

表示事物A发生之后事物B发生的概率;

全概率

我们可以将公式写成全量的形式:

表示全量相互排斥且性质关联的事物,即:

那么可以得到

,这就是全概率公式。

全概率公式的意义在于:无法知道一个事物独立发生的概率,但是我们可以将其在各种条件下发生的概率进行累加获得。

全概率的例子

例1,已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。一个人检测为阳性的概率是多少。

例2,袋子中50个球,20个黄球,30个白球。2个人一次从袋中各获取一个球,且不放回,求第二个人取得黄球的概率。

从另外一个角度说,无论前面的人抽了多少次,后面的人抽签总体概率是不变的。

例3,5张卡片上分别标记了1,2,3,4,5,每次取2张,连续取2次,取出后不放回。求第二次取出的卡片,比第一次取出的卡片大的概率。

例4,甲袋有5只白球、7个红球,乙袋有4只白球、2只红球。任意取一个袋子,求从袋子取得白球的概率。

*贝叶斯公式

贝叶斯公式的理解

可以理解他是全概率公式的反向应用,他是求某个条件出现时某个事件发生的概率。定义如下:

沿用前面医学的例子:

例1,已知某种疾病的发病率是0.001,即1000人中会有1个人得病。现有一种试剂可以检验患者是否得病,它的准确率是0.99,即在患者确实得病的情况下,它有99%的可能呈现阳性。它的误报率是5%,即在患者没有得病的情况下,它有5%的可能呈现阳性。一个人检测为阳性时候,他确切患病的几率是多少。

从结论看,这个试剂挺不可靠的。

将贝叶斯公式的底部展开为全概率公式:

使用全概率公式展开之后有个很直观的发现:当我们考察某一个事件的条件概率时——事件

发生之后

发生的概率,需要将整个样本空间中其他概率事件也加入到其中来。

似然函数

似然函数个人理解是一种更加“公式化”的条件概率表达式,因为他书写的形式和条件概率相比并没有太大区别——

,只是解读方式不同。这里的

表示样本特征数据,

表示模型参数。

如果

已知并且固定,那么表示这个是一个概率计算模型,表示:不同的样本

在固定的模型参数

的概率值。

如果

已经并且固定,表示这是一个似然计算模型(统计模型),表示不同的样本用于求解模型参数

极大似然估计

按照前面似然函数

的介绍,似然函数可以看做

是已知的,

是未知的,极大似然估计就是在已知

的情况下求取

在现实的生产生活中也常常会遇到这样的问题。我们以及有了样本以及对应的标签(结论),如何根据这些样本来计算(推算)条件

是一件很困难的事情。而极大似然估计就是一个根据样本值

和结论数据

计算条件参数

的过程。

总的来说,极大似然估计是一种参数估计算法。使用极大似然估计有一个很重要的先决条件——每一组样本都是独立的,并且有充分的训练样本

先看看样本独立的判断公式:

,即2个事物同时发生的概率等于事物独立发生概率的乘积。

极大似然评估的公式及像这个公式。

设有一组样本

,所有样本的联合概率密度

称为相对于样本

的似然函数。那么由独立判定公式推断出所有样本的概率为:

是使得

取得最大值的

值,那么

的极大似然估计量。可以使用下面的公式表示

的关系:

,

实际计算时,计算连乘比较麻烦,我们可以引入对数将其转换为一个求和的过程:

,因为

也称为对数似然函数。

如果

连续可微,那么可以使用导数为0求函数的凸点。即:

将条件因子扩展为M个,即

,则似然函数(对数似然函数变成):

此时每一个

的求导变成一个求偏导数的过程:

,每一个

都要对

求导。

最大似然评估的案例

最大似然评估计算

最大似然评估(也称为极大似然评估)的用处是什么?首先可以将每个字眼拆解开来看。最大就是要找最大值,似然说明并不精确似乎就是这个值,评估指的是这是一个过程。

现实生活中的例子:2对夫妇

和一个小孩

。从外观上看,小孩

长相比较接近夫妇

,有点像

,不像

,让你猜测

是谁的小孩。思维正常一点的人肯定会说

的小孩,这本身就是一个自然而然的判断过程,用数学解释:

使用似然评估,就可以断定小孩更像谁:

参数&模型评估

最大似然估计更多的应用是在有一定样本数据的情况下用于模型评估,更准确的说是模型中的参数评估。因为似然评估来自于概率独立判决公式——

,所以要求用于评估的样本数据相互独立。

先说一个很直观的案例解释这个问题:

例1,从盒子里连续取球,已知取得红球的概率

,求当P取何值时最有可能连续三次拿到红球。

只管上来说,肯定是概率越高取得红球的几率越高,所以不做推断也知道

时拿到红球的几率更高。下面通过数学过程来说明这个问题。

设条件

,表示取得红球,

表示没取得红球,所以用最大似然评估来计算参数得:

,只管的看就知道取值0.5似然评估最大。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

详解香港中文大学超大规模分类加速算法 | 论文

简介 近日,香港中大-商汤科技联合实验室的新论文“Accelerated Training for Massive Classification via Dyn...

37210
来自专栏人工智能头条

用AI给裸女自动“穿”上比基尼,妈妈再也不担心我“辣眼睛”了

互联网的内容繁杂,一不小心就会看到一些“辣眼睛”的内容,比如裸女,这也是为什么我们需要审核人员的存在。当然,受益于 AI 技术的发展,现在很多审核工作已经自动化...

861
来自专栏用户2442861的专栏

AdaBoost--从原理到实现

对于Adaboost,可以说是久闻大名,据说在Deep Learning出来之前,SVM和Adaboost是效果最好的 两个算法,而Adaboost是提升树(...

791
来自专栏ATYUN订阅号

赫尔辛基大学AI基础教程:神经网络是如何构建的(5.2节)

正如我们前面所说,神经元是非常简单的处理单元。在第4章讨论了线性和逻辑回归之后,神经网络的基本技术细节可以被看作是同一个思路的变种。

1263
来自专栏IT派

机器学习方法体系汇总

导语: 对学习算法进行分类是基于构建模型时所需的数据:数据是否需要包括输入和输出或仅仅是输入,需要多少个数据点以及何时收集数据。根据上述分类原则,可以分为4个主...

3784
来自专栏数据科学与人工智能

【陆勤学习】解读机器学习基础概念:VC维的来龙去脉

目录: 说说历史 Hoeffding不等式 Connection to Learning 学习可行的两个核心条件 Effective Number of Hyp...

6116
来自专栏机器之心

计算机视觉这一年:这是最全的一份CV技术报告

3346
来自专栏AI2ML人工智能to机器学习

一步一步走向锥规划 - LS

一般来说凸优化(Convex Optimization, CO)中最一般的是锥规划 (Cone Programming, CP) 问题, 最简单的是最小二乘(...

1021
来自专栏AI2ML人工智能to机器学习

最大似然估计的2种论证

前面(一步一步走向锥规划 - 最小二乘法)对最小二乘法OLS进行了描述,并且使用最大似然估计Maximum Likelihood Estimation, MLE...

1032
来自专栏AI科技大本营的专栏

「数据科学家」必备的10种机器学习算法

编译 | 嗯~是阿童木呀、KABUDA、EVA 可以说,机器学习从业者都是个性迥异的。虽然其中一些人会说“我是X方面的专家,X可以在任何类型的数据上进行训练”,...

2935

扫码关注云+社区

领取腾讯云代金券