专栏首页ATYUN订阅号赫尔辛基大学AI基础教程:贝叶斯定理(3.2节)

赫尔辛基大学AI基础教程:贝叶斯定理(3.2节)

AiTechYun

编辑:yxy

我们不会过分介绍概率微积分的细节以及它用于各种AI应用程序的方法。但我们将讨论一个非常重要的定理。

我们之要讨论他,因为这个特殊的定理简单而且强大。它可以用来衡量医学,法庭和许多(可能不是全部)科学学科的相互矛盾的证明。它被曾为被称为贝叶斯定理(Bayes rule或者Bayes formula)。

我们将首先通过一个简单的医学诊断问题来展示贝叶斯定理的强大力量,这个问题突出了我们的直觉多么组合冲突的证据。然后,我们将展示如何使用贝叶斯定理来构建处理冲突和噪声观测的AI方法。

关键术语

先验和后验赔率

贝叶斯定理可以以多种形式表达。最简单的就是赔率。它的概念是取得正在发生的事物的赔率(对立于没有发生的),我们将其写成先验赔率(prior odds)。“先验”一词是指我们在获得一些相关的新信息之前对赔率进行的评估。它的目的是在新信息变得可用时更新先验赔率,获得后验赔率或者说获得信息后的赔率。(后的意思是“后来发生的事”。)

赔率如何变化

为了权衡新信息,并决定赔率变得可用的时候怎样进行变化,我们需要考虑在其他情况下我们会遇到这种信息的可能性。举个例子,今天晚些时候下雨的可能性。想象一下,在芬兰早上起床。在这里365天下雨的天数为206天(还包括下雪和冰雹,呵呵!)。也就是说不下雨的天数为159,因此转换为先验赔率为206:159,所以在你睁开眼睛之前,概率已经现实对你不利了。

然而,在睁开眼睛看一看外面,你会发现天是阴的。假设在下雨天早上阴天的可能是十分之九 – 这意味着只有十分之一的雨天早上是晴天。但是有时候也有阴天不下雨的情况:在无雨的日子里有云的机会是10分之一。现在雨天早上多云的几率比无雨日早上多云的几率高多少?仔细思考这个问题,因为它对于理解问题并得到答案是很重要。

答案是,雨天早上多云的几率是无雨日早上多云几率的9倍:雨天有云的几率是9/10,无雨天有云的几率是1/10。

关键术语

似然比

上述比率被称为似然比(雨天早上多云的几率是无雨日早上多云几率的9倍的这个比率)。通常,似然比是有感兴趣事件情况下观测的概率(上文雨天多云的比率)除以在没有感兴趣事件的情况下观察的概率(上文无雨日多云的比率)的情况下观察的概率。请把前面的句子读几遍。可能有点绕,但只要你集中精力,消化并不是不可能的。我们将详细介绍这些步骤,打起精神来。

所以我们得出结论:在阴天早晨,我们有:似然比=(9/10)/(1/10)= 9

贝叶斯定理将先验赔率转换为后验赔率:后验赔率=似然比×先验赔率

现在你也许在想:等下,这就是公式?只是一个乘法而已!这就是公式 – 我们说过这很简单,不是吗?但你不会想到,一个简单的乘法可以用在各种令人不可思议的有用的应用程序,但它可以。下面,我们研究几个例子来证明这一点。

注意

许多形式的贝叶斯

如果你在以下练习中遇到任何问题,你可能需要花些时间阅读上述材料,或者,也可以网上查找更多材料。贝叶斯定理有很多不同的形式,我们使用的概率形式不是最常见的。此外你可以访问以下两个链接,可能会对你有用。

  • https://www.youtube.com/watch?v=tRE6mKAIkno
  • https://betterexplained.com/articles/understanding-bayes-theorem-with-ratios/

练习10:贝叶斯定理(第1部分)

应用贝叶斯法则来计算在赫尔辛基早晨观测到的云之后降雨的后验概率。

正如我们上面计算的那样,观测到的云降雨的先验概率是206:159,似然比是 9

以赔率形式给出结果,xx:yy,其中xx和yy是数字。请记住,当乘以赔率时,你应该只乘以分子部分(xx部分)。给出没有简化的答案(即使两遍有同一公分母)。

贝叶斯定理实践:乳腺癌筛查

我们的第一个现实应用是使用贝叶斯定理的经典例子,医学诊断。这个例子也说明了处理不确定信息的一个普遍的偏见,叫做基础比率谬论(base-rate fallacy)。

思考乳腺癌的X光照相检查。为了简化数据,我们假设百分之五的女性患有乳腺癌。假设,如果一个人患有乳腺癌,X光检查会在100次中80次有机会发现(技术性的说法是测试的灵敏度为80%)。当检查结果显示存在乳腺癌时,我们说结果是阳性的

这种检查也可能出现另一种失误,即没有乳腺癌存在时误报乳腺癌。我们称这样的结果为假阳性。假设,如果接受检查的人实际上没有患乳腺癌,检测结果为阳性的概率是10比100。

基于上述概率,你可以计算似然比。在下一个练习中你会发现它的用处。

练习11:贝叶斯定理(第2部分)

思考上述乳腺癌的情况。一名普通妇女进行X光照相检查,得到阳性检测结果,提示乳腺癌。你认为她患有乳腺癌的几率是多少?

使用你的直觉而不应用贝叶斯定理,并记录下来,你认为在阳性检查结果之后,她实际患乳腺癌的几率是多少。然后,使用贝叶斯定理计算患乳腺癌的后验概率

首先计算先验赔率,然后乘以似然比。

以xx:yy形式给出答案,其中xx和yy是数字,给出没有简化的答案(即使两遍有同一公分母)。

练习8:概率预测

思考以下四个概率预测和结果。根据预测结果的正确性可以得出什么结论?我们能否得出推断:预测给出的概率确实是正确的(选择“对”),预测是错误的(选择“错”),或者无法得出结论(选择“不能得出结论”)。

1.天气预报称,明天天气将以90%的概率下雨,但全天都是晴。(不能得出结论)

我们不能基于单一事件推测天气预报是错的。题干说,天气预报说90%下雨,也相当于说,百分之十不下雨,或者说这样的天气十天里有一天不会下雨。所有有问题的一天是十个事件中的一个完全合理。90%的概率既可能正确的也可能是错误的,否则,我们也可以推断80%的降雨概率也是正确的,然而他们不能同时正确。

2.天气预报称,明天天气将以0%的概率下雨,但这天下雨了。(错)

这个显然不对,0%的概率意味着绝对不下雨,但它下了。

3.假设你长时间监视天气预报员。你只统计预测会有70%的降雨机率的日子。你发现从长远来看,这些日子平均每五天就有三天下雨。(错)

如果他们预测有70%的降雨,但在长期内只有60%下雨,那么严格的说,天气预报是错的。实际上,天气预报员现实中倾向于提供这样一种“错误”的预测,只是为了保险起见:当天气变得比预测的更糟糕时,人们往往会感到非常失望,但当结果比预期的要好时,人们就不会那么失望了。

4.在2016年美国总统大选中,一个著名的政治预测博客Five-Thomson认为希拉里·克林顿的胜率为71.4%(vs特朗普的28.6%)。然而,与预测相反,唐纳德·特朗普当选为第45任美国总统。(不能得出结论)

当一些不太可能的事情发生时不能判断对错。首先考虑之前的题,如果没有足够的信息预测结果的话,预测特朗普的胜率,比如说90%或100%都是错的。换句话说,或许特朗普的胜利有一个罕见的事件,概率为23.1%。

练习9:赔率

如上所述,赔率3:1等于概率的0.75(或百分比75%)。

一般来说,如果赞成事件的赔率是x:y,则事件的概率等于x /(x + y)。

正如我们前文说的那样,6:2的概率等于和3:1完全相同的概率,因为对于x = 6和y = 2,我们得到相同的结果:x /(x + y)= 6 /(6 + 2)= 6 / 8 = 3/4 = 0.75。

你的任务:

对于前三题1-3,从赔率转换为整数的比值; 例如从1:1到1/2。

对于后三题4-6,将概率转换为百分比(例如4.2%)。以百分比形式给出答案,取一位小数,例如12.2%。

提示:计算要用一个简单的计算器,公式可以在上面找到。

1.在扑克中获得三条机会大概是1:46。(1/47)

2.赫尔辛基下雨的可能性为206:159。(206/365)

3.圣地亚哥的降雨可能性为23:342。(23/365)

4.在扑克中获得三条机会大概是1:46。(2.1%)

5.赫尔辛基下雨的可能性为206:159。(56.4%)

6.圣地亚哥的降雨可能性为23:342。(6.3%)

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:yxy

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 赫尔辛基大学AI基础教程:赔率和概率(3.1节)

    在赫尔辛基大学AI基础教程:搜索和游戏(2.3节)中,我们讨论了搜索以及它在完全信息时的应用 ,比如像国际象棋这样的游戏。但是,在现实世界中,事情很少这样清晰。

    AiTechYun
  • 索尼机器狗Aibo全新改良,以2899美元高价重回美国市场

    该公司今天在纽约市的一个新闻发布会上宣布,它正在将其消费级机器狗Aibo带回美国,订单限量,该公司称之为“First Litter”版本。售前服务将于9月开始,...

    AiTechYun
  • 使用python中的Numpy进行t检验

    虽然像SciPy和PyMC3这样的流行的统计数据库有预定义的函数来计算不同的测试,但是为了了解这个过程的数学原理,必须了解后台的运行。本系列将帮助你了解不同的统...

    AiTechYun
  • 看腻了大佬虐菜,只盼三场势均力敌的小组赛,pick一下?

    截止周二早上(6月26日),2018俄罗斯世界杯64场比赛已战36场,小组赛还有最后三晚12场,分别是C、D、F、E、H、G小组的第三轮。

    用户1569917
  • 赫尔辛基大学AI基础教程:赔率和概率(3.1节)

    在赫尔辛基大学AI基础教程:搜索和游戏(2.3节)中,我们讨论了搜索以及它在完全信息时的应用 ,比如像国际象棋这样的游戏。但是,在现实世界中,事情很少这样清晰。

    AiTechYun
  • Windows 10 IoT Serials 3 - Windows 10 IoT Core Ardunio Wiring Mode

        Maker社区和智能硬件的朋友一定知道Arduino,很多3D打印机都是用它做的。为了迎合这一大块市场,微软在基于Intel Galileo的Windo...

    ShiJiong
  • 2017 linux版本排行榜,最好用的linux在这里

    Linux的阵营日益壮大,每一款发行版都拥有一大批用户,开发者自愿为相关项目投入精力。Linux发行版可谓是形形色色,它们旨在满足每一种能想得到的需求。 本文就...

    小小科
  • java中利用hanlp比较两个文本相似度的步骤

    使用 HanLP - 汉语言处理包 来处理,他能处理很多事情,如分词、调用分词器、命名实体识别、人名识别、地名识别、词性识别、篇章理解、关键词提取、简繁拼音转换...

    IT小白龙
  • 滴滴前端一面电话面

    牛客网
  • 将SAP C4C Custom BO使用ABSL编写的逻辑通过OData服务暴露出去

    Suppose you have implemented some logic in a given action of your custom BO via ...

    Jerry Wang

扫码关注云+社区

领取腾讯云代金券