该系列的宗旨为:少公式,简洁化,掌握核心思想,面向对机器学习感兴趣的朋友。
ps:主要源自李航《统计学习方法》以及周志华《机器学习》,水平所限,望大牛们批评指正。
朴素贝叶斯法:多类分类
模型特点:基于贝叶斯定理与特征条件独立假设的分类方法
学习策略:极大似然估计,极大后验概率估计
学习的损失函数:对数损失函数
输入空间:n维向量的集合
输出空间:类标记集合Y=
学习算法:概率计算公式,EM算法
应用场景:垃圾邮件过滤
基本思想:
对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;
然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y
1、朴素贝叶斯法的学习与分类
1.1基本方法
朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y),然后求得后验概率分布P(Y|X).
朴素贝叶斯法对条件概率作了条件独立性的假设.由于这个假设,模型包含的条件概率的数量大为减少,朴素贝叶斯法的学习与预测大为简化,因而朴素贝叶斯法高效,易于实现
由上面的公式,得到朴素贝叶斯法分类的基本公式为
将输入x分到后验概率最大的类y
1.2后验概率最大化
后验概率最大等于0-1损失函数时的期望风险最小化
2、朴素贝叶斯的参数估计
朴素贝叶斯法中,学习意味着估计P(Y=ck)和P(X(j)=x(j)|Y=ck),可以使用极大似然估计或者贝叶斯估计
领取专属 10元无门槛券
私享最新 技术干货