首页
学习
活动
专区
工具
TVP
发布

机器学习之朴素贝叶斯

知识背景

完备概率事件/空间:

条件概率:

贝叶斯定理:

朴素贝叶斯算法

设为一个待分类项,而每个a为x的一个特征属性,不同特性之间相互独立。

有类别集合

计算

如果

第3步中的计算,各特征属性相互独立,据贝叶斯定理

因为分母对于所有类别相同,所以只需要计算比较分子

估计类别下特征属性划分的条件概率及Laplace校准

计算各个划分的条件概率是朴素贝叶斯分类的关键性步骤,当特征属性为离散值时,只要很方便的统计训练样本中各个划分在每个类别中出现的频率即可用来估计,下面重点讨论特征属性是连续值的情况。

当特征属性为连续值时,通常假定其值服从高斯分布(也称正态分布)。即:

从而,因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差,代入上述公式即可得到需要的估计值。

另一个需要讨论的问题就是当

怎么办,当某个类别下某个特征项划分没有出现时,就是产生这种现象,这会令分类器质量大大降低。为了解决这个问题,我们引入Laplace校准,它的思想非常简单,就是对没类别下所有划分的计数加1,这样如果训练样本集数量充分大时,并不会对结果产生影响,并且解决了上述频率为0的尴尬局面。

例子:离散特征

Question:现在有一个打喷嚏的建筑工人,根据数据推断该人最有可能的疾病?

计算患每种疾病的概率,选择概率最大的;根据贝叶斯定理

如果“症状”和“职业”是相互独立的,则上式可展开计算

所以预测:这名打喷嚏的建筑工人估计是感冒了

例子:特征值连续

(摘自维基百科)

已知某人身高6英尺、体重130磅,脚掌8英寸,请问该人是男是女?

根据朴素贝叶斯算法,需要计算:

由于身高、体重、脚掌都是连续变量,不能采用离散变量的方法计算概率。比如,男性的身高是均值5.855、方差0.035的正态分布。所以,男性的身高为6英尺的概率:

类似的,计算

注解

数据的统计要有足够的量,足够的全面,持续的积累和准确;

职业病?特征独立?

医疗诊断的人工智能,脱离不了病例数据的积累支撑

中医,中药的相关结论,神农尝百草,本草纲目;大量的实践,大量的总结

基于数据的处理,情感分析也是基于数据的统计分析,机器并不理解自然语言,更不懂人类情感;

朴素贝叶斯分类学习是一种监督学习

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181121A21KII00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券