首页
学习
活动
专区
圈层
工具
发布

[机器学习算法]朴素贝叶斯

以二分类问题为例,我们假设特征集合为

,样本所属类别为

,后验概率

为:

其中

是类的先验概率;

是样本

相对于类标记

的类条件概率;

代表样本x出现的概率,但是给定样本x,

与类标记无关。因此我们只需要计算先验概率

和类条件概率

。计算方法如下:

表示样本空间中各类别样本所占的比例,根据大数定律,当训练集包含充分的独立同分布样本时,因此

可以根据各类样本出现的频率来进行估计。

设计到关于

所有属性的联合概率,如果直接根据样本出现的频率来估计会遇到极大的困难(比如假设样本的

个属性都是二值的,那么样本空间就有

种可能的取值,这个值往往远大于训练样本数,因此很多样本取值在训练中可能根本不会出现),因此我们直接用频率来估计

是不可行的。 为解决这个问题,朴素贝叶斯提出了“属性条件独立性假设”:对已知类别,假设所有属性相互独立。于是贝叶斯公式可以改写成:

其中我们用样本频率估计

其中

表示类别为

的样本数,

表示训练集总样本数,

表示类别

样本中在第

个特征值取值为

的样本数。 求出所有类别的

后取后验概率最大的类别

为最近预测类别。

下一篇
举报
领券