1,朴素贝叶斯:损失函数、参数估计方法(极大似然估计)
贝叶斯决策论是概率框架下实施决策的基本方法。朴素贝叶斯属于生成式模型,即先对联合分布P(x,c)建模,然后再由此获得后验概率P(c|x),朴素贝叶斯分类的是所有属性之间的依赖关系在不同类别上的分布。
朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。关键假设是属性条件独立性假设:对已知类别,假设所有属性相互独立,即每个属性独立地对分类结果发生影响。这一假设使得朴素贝叶斯法变得简单,但有时会牺牲一定的分类准确率。
首先基于属性条件独立性假设学习输入/输出的联合概率分布,然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大化的输出y。
1),对应给定的样本X的特征向量x1,x2,...,xm;该样本X的类别y的概率可以由贝叶斯公 式得到:
2),在给定样本的情况下,P(x1,x2,...,xm)是常数,所以得到:
3),因此,后验概率最大化目标转化为:
后面就可以使用极大似然估计法进行参数估计了。
2,后验概率最大化隐含着期望风险最小化:
朴素贝叶斯法将实例分到后验概率最大的类中,等价于期望风险最小化。论述如下:
1),使用0-1损失函数:
其中,f(X)是分类决策函数。
2),期望经验风险函数为:
3),使期望风险最小化,当X=x时:
可见根据期望风险最小化准则可以得到后验概率最大化准则。
3,极大似然估计(MLE)、极大后验估计(MAP)与贝叶斯估计:
MLE、MAP(Maximum a Posteriori estimation)与贝叶斯估计均是有监督算法。
1),MLE:最大似然估计就是求解使得X出现概率最高的θ。显然计算出来的参数完全取决于实验结果。
2),MAP:能够很大程度克服实验误差,该方法尝试最大化后验概率P(θ|X) 。
上式的分母部分P(X)为已知的(称作证据),因此,我们只需要最大化分子部分:P(θ|X)P(θ)。
注意该式和最大似然估计的唯一区别,是增加了先验概率P(θ),这也就是要求θ值不仅仅是让似然函数最大,同时要求θ本身出现的先验概率也得比较大
。这里的先验概率是我们自己来设定的(这就是所谓的先验知识,即你的认知、经验等),和实验结果X无关,换句话说就是超参数。
3),贝叶斯估计:
贝叶斯估计与上述两类估计方法最大的区别在于,该类方法并不求出参数θ的具体值,而是求出θ的概率分布模型。对于贝叶斯估计,如果假设θ服从贝塔分布,则最终求出θ~Beta(α,β)的模型参数α,β。
在MAP计算中,我们省略了贝叶斯公式中的证据部分P(X)。但是在贝叶斯估计方法里,我们要利用P(X)做点事情:
新的贝塔概率分布函数θ~Beta(α+7,β+3)就是我们要求解的θ的概率分布。
贝叶斯方法的过程体现了通过数据来修正模型的思想: (1)首先提出一个先验模型,该模型参数为θ; (2)通过结合实验数据,最终得到一个新的模型,该模型参数为θ*。
4,高斯朴素贝叶斯、伯努利朴素贝叶斯、多项式朴素贝叶斯:
朴素贝叶斯、高斯朴素贝叶斯、伯努利朴素贝叶斯、多项式朴素贝叶斯之间的区别仅在于p(x|y)的计算公式不同。
其中,Gaussian NaiveBayes是指当特征属性为连续值时,而且分布服从高斯分布,那 么在计算P(x|y)的时候可以直接使用高斯分布的概率公式:
因此,只需要计算出各个类别中此特征项划分的各个均值和标准差
BernoulliNaive Bayes是指当特征属性为连续值时,而且分布服从伯努利分布, 那么在计算P(x|y)的时候可以直接使用伯努利分布的概率公式:
MultinomialNaive Bayes是指当特征属性服从多项分布,从而,对于每个类别 y,参数为θy=(θy1,θy2,...,θyn),其中n为特征属性数目,那么P(xi|y)的概率为θyi:
5,code:
# github地址:https://github.com/Jesselinux/Mining-Algorithms
本文分享自 MiningAlgorithms 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!