前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >3个范例带你读懂贝叶斯法则

3个范例带你读懂贝叶斯法则

作者头像
lyhue1991
发布2020-07-20 15:24:04
1.1K0
发布2020-07-20 15:24:04
举报

贝叶斯法则可能是概率论中最有生命力的一个公式。它可以用来计算条件概率或者主观概率。

贝叶斯法则的思想非常简单:随机事件发生的概率随着相关条件的发生而改变,一个命题真假的信念即主观概率随着相关证据的发现而改变。当正相关条件发生时,条件概率上调,当负相关条件发生时,条件概率下调。当有利证据发现时,主观概率上调,当不利证据发现时,主观概率下调。

然而,贝叶斯法则具有非常深刻的哲学意义和广泛的应用价值。哲学家们用它来解决休谟归纳问题;生命科学家用它来研究基因是如何被控制的;教育学家突然意识到,学生的学习过程正是贝叶斯法则的运用;基金经理用贝叶斯法则找到投资策略;Google用贝叶斯法则改进搜索功能;人工智能,机器翻译中大量用到贝叶斯法则……

本文将通过公式推演和3个简单的范例,带领大家读懂贝叶斯法则并领略其独特的魅力。

一,条件概率和贝叶斯定理

条件概率P(A|B)表示随机事件B发生的前提下随机事件A发生的概率。条件概率P(A|B)也被称为后验概率,P(A)是其对应的先验概率。

以下为第1个应用举例:

HIV携带检测

假设艾滋病毒HIV在人群中的携带比率为0.01%,目前检测它的医学技术非常高超,如果一个人真的携带有HIV,那么血液检测有99.9%的概率为阳性,即检测出来的概率很高。如果一个人不携带有HIV,那么血液检测只有0.01%的概率为阳性,即冤枉一个正常人的概率很低。现在从街头上随机找个人给他做检查,发现检测结果不妙,是HIV阳性,那么他真的携带有HIV病毒的概率为多大?

从这个例子中,我们发现如果一个事件发生的先验概率很低,那么即使出现了非常有力的证据,这个事件发生的后验概率也不一定会很高。

二,朴素贝叶斯方法

在实际应用贝叶斯法则的时候,通常会存在许多的条件,而不是单个条件。此时为了简化问题,我们有时候会做一个非常天真的假设,即这些条件事件之间是相互独立的,这时候我们会得到朴素贝叶斯方法。

以下是第2个应用范例:

垃圾邮件识别

假设现在收到一封邮件,内容如下:

"东南亚7日游,只要6999。" 那么这封邮件是否是一封垃圾邮件呢?为了用算法对垃圾邮件进行分类,我们对100000封邮件进行了标注,其中正常邮件有80000封,垃圾邮件有20000封。我们把收到的这封邮件进行分词处理,得到"东南亚"、"7日游","只要","6999"这4个词。统计它们在已标注邮件中出现的次数如下。

现在利用朴素贝叶斯方法,我们可以计算这封邮件是否为垃圾邮件的概率了。

于是,这封邮件有0.96的概率是一封垃圾邮件。

三,贝叶斯排序模型

在对多条件下的后验概率进行展开时,除了运用朴素贝叶斯假设外,我们还可以使用另外一种迭代的方法。

当存在更多的条件时,可以继续按照这个模式展开。以上展开表达式和各个条件事件的迭代顺序无关。下面是一个简单的证明。

利用这种迭代展开式,我们可以构造一种贝叶斯排序模型,对诸多信息进行加工,生成主观概率。

以下为第3个应用范例:

贝叶斯排序模型

有两个同类别商品A和B,A有1个五星好评,B有5个五星好评和1个四星好评,那么你觉得这两个商品哪个更好一些呢? 有的同学会觉得商品A更好一些,因为A的平均星级就是5,而B的平均星级为4.83。 另外一些同学会觉得B更好一些,因为B有更多的五星好评,可靠性更大。 实际上我们在对商品的诸多评论信息加工出一个对商品的整体评价时,使用的就是贝叶斯公式。

在没有任何信息的前提下,我们假设一个商品为非常棒的商品的概率为0.5。

并且我们假设,一个非常棒的商品获得各个星级的评价的概率分别如下,即我们假设非常棒的商品倾向于获得较高的评级。

一个不是非常棒的商品获得各个星级的评价的概率分别如下,即我们假设不是非常棒的商品倾向于获得较低的评级。

迭代计算如下。

于是我们得出结论:B商品更好。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-07-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法美食屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一,条件概率和贝叶斯定理
  • 二,朴素贝叶斯方法
  • 三,贝叶斯排序模型
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档