条件概率是朴素贝叶斯模型的基础
A事件与B事件同时发生的概率表示为P(A∩B)。 A不发生的概率为1-P(A),写为P(~A),即矩形中除了圆圈A以外的其他部分。 A或者B至少有一个发生的概率表示为P(A∪B),即圆圈A与圆圈B共同覆盖的区域。
设输入空间是一个n维向量的集合,输出空间是类标记集合,输入为特征向量x,输出为类标记y,X是定义在输入空间的随机向量,Y是定义在输出空间的随机变量。P(X,Y)是X和Y的联合概率分布。 朴素贝叶斯法通过训练数据集学习联合概率分布。 具体的学习先验概率分布和条件概率分布。 先验概率分布:
条件概率分布:
朴素贝叶斯对条件概率分布做了条件独立性的假设,具体的:
条件独立假设等于是说用于分类的特征在类确定的条件下都是条件独立的。 朴素贝叶斯分类时,对给定的输入x,通过学习到的模型计算后验概率P(y=c|X=x),将后验概率最大的类作为x的类输出。 后验概率根据贝叶斯定理进行:
即
所以贝叶斯分类器可以表示为:
注意到,对于所有的ck,分母都是一样的,所以有:
用极大似然估计相应的概率:P(Y),P(X|Y)
先验概率的极大似然估计
条件概率的极大似然估计
用极大似然估计可能会出现所要估计的概率值为0的情况,这会影响到后验概率的计算结果,使得分类偏差,解决这一问题的方法就是使用贝叶斯估计。
先验概率的贝叶斯估计
条件概率的贝叶斯估计
其中lamda>=0。等价于在随机变量各个取值的频数上赋予一个正数。lambda=0,就是极大似然估计;取lamda=1,称为拉普拉斯平滑( Laplace smoothing)。
# -*- coding: utf-8 -*-
"""
Created on Sun Dec 10 17:33:38 2017
@author: jasonhaven
"""
import numpy as np
import operator
def createFeatureSpace(datas):
xvectors_len=len(datas[0])
xvectors_feature=[]
for i in range(xvectors_len):
xvectors_feature.append([])
for x in datas:
for i in range(xvectors_len):
if x[i] not in xvectors_feature[i]:
xvectors_feature[i].append(x[i])
return xvectors_feature
def trainNB(datas,labels,feature):
#计算先验概率
prior_probability=np.zeros(len(set(labels))) #初始化先验概率
positive_count = 0 #统计正类
negative_count = 0 #统计负类
labels_len=len(labels)
for i in range(labels_len):
if labels[i]==1:
positive_count+=1
else:
negative_count+=1
prior_probability[0] = positive_count / labels_len #求得正类的先验概率
prior_probability[1] = negative_count / labels_len #求得负类的先验概率
#计算条件概率
condition_probability={}
#print(condition_probability)
for i,x in enumerate(feature):
for j in range(len(x)):
for y in set(labels):
key=(x[j],y)
sigma_jy=0
sigma_y=0
for k in range(len(datas)):
if labels[k]==y:
sigma_y+=1
if datas[k][i]==x[j] and labels[k]==y:
sigma_jy+=1
condition_probability[key]=sigma_jy/sigma_y
return prior_probability,condition_probability
def classify(instance,labels,prior_probability,condition_probability,feature):
result=[]
for i,y in enumerate(set(labels)):
multi=prior_probability[i]
for xi in instance:
key=(xi,y)
p_xy=condition_probability.get(key)
multi*=p_xy
result.append({str(y):multi})
return result
def main():
datas=[[1, 'S'], [1, 'M'], [1, 'M'], [1, 'S'], [1, 'S'],
[2, 'S'], [2, 'M'], [2, 'M'], [2, 'L'], [2, 'L'],
[3, 'L'], [3, 'M'], [3, 'M'], [3, 'L'], [3, 'L']]
labels=[-1, -1, 1, 1, -1, -1, -1, 1, 1, 1, 1, 1, 1, 1, -1]
#构造特征向量表
feature=createFeatureSpace(datas)
prior_probability,condition_probability=trainNB(datas,labels,feature)
instance=[2,'S']
result=classify(instance,labels,prior_probability,condition_probability,feature)
print(result)
if __name__ == '__main__':
main()