00:00
Hello,大家好,我是数据导购人孙夏恩,今天呢,我给大家带来的是图解贝叶斯,我教会用最简单的方法教会大家如何用贝叶斯去推理那些来买东西的人和随便逛逛的人。这篇文章呢,我同样的已经发布在了公众号数据万花筒之上,大家可以扫描这边的二维码去阅读这篇文章,同时的话也可以扫描这个二维码来关注我们。贝叶推理呢,它就是用一种先验的概率去推测一种后验概率的方法,也是数据分析中笔试、面试常见的一个题型之一。我们首先来假设一个场景,假设我们是一个商店的售货员,我们知道有80%的顾客他进店只是随便逛一逛,而有20%的人他是想要真正的去购买一些商品,并且我们知道。
01:00
那些真正要购买商品的人,他向你询问这些商品信息的概率是90%,而随便逛逛的人,他询问你的概率主要是10%。那么当有人向我们询问的时候,我们怎么去估算这一位顾客他买商品的一个概率呢?这就涉及到了我们的一个贝叶斯定理。首先我们先来介绍一些补充的,我们来首推,在首推之前呢,我们先来了解一个概念,就是条件概率。条件概率的定义是我们在事件B的情况下发生事件A的概率,我们就叫做条件概率。那么根据条件概率的公式我们可以知道,在B的条件下,A发生的概率我们可以写成公式,也就是等于A和B同时发生的概率除以B的发生的概率,那么如果是在A的条件下,B发生的概率我们可以写成什么样子呢?那也就是A和B同时发生的概率,然后比上A发生的一个概率,呃,那么对上述的条件概率公式进行变形,我们可以得到A和。
02:00
以同时发生的概率就等于B条件下A发生的概率乘以B的概率,同时也等于A条件下发生B的概率乘以A的概率,那么我们对这个等式进行一个替换,也就写成了我们下面这个等式,那么对上述的这个等式进行一个移项处理,也就得到了我们下面这个大名鼎鼎的VS的公式,上面就是一个VS公式的一个推理过程,但是今天呢,小编想要最简单的方法,请用几幅图就教会大家去计算这个VS公式,然后去推测这个顾客他去买商品一个概率。我们第一步就是通过经验去设定一个先验概率。什么是先验概率?那么在贝叶斯统计学中就是某种类别的一个比率,它有个专业名词就叫做一个先验概率,通常先验概率是可以通过经验来判断的,就是在某种比较特殊的情况下,即使没有类似的一个经验,也可以进行一个判断,这个情况我们之后会比较。
03:00
的,因为这是一个比较特殊的情况,那么根据我们前面的一个场景假设,我们就把一个整体分为了两种不同情况,如下图所示。那么A情况的话就是来买东西的人,根据提示,我们已已经知道来买东西的人占到20%,而随便观望的人就是B类同学,他们占到了80%。这就是我们在脑海中构建的这样一个大致印象,我们把它称之为一个可能的世界。那么第二步的话,我们就需要去设置发生向店员询问事件的这样的一个条件概率。我们条件概率它是表示某一特定类别采取各种行动的一个概率。如果是我们用这个原因的概念来解释的话,就是在明确原因的情况下,某一类别,他采取各项行动的一个结果概率,呃,根据提示,我们将上述的顾客进行了更细的划分,在这个来买东西的顾客里面,有90%的发生了询问,而10%的顾客没有发生询问,而这个随便逛呢?
04:00
的顾客里面有30%的人他发生了询问,而70%的人没有发生询问,那我们来确定一下这四个可能事件,他发生了一个概率,第一类来买东西的人发生询问的概率,也就是它的面积是0.8,而不发生询问的是0.02,在随便逛逛的这个这部分人群当中,发生询问的是0.8乘以0.3等于0.24,而随便逛逛的人群里面不询问电源的概率是0.8乘以0.7等于0.56,他我们相加起来是一个一。下面我们来计算一下四个可能事件,它发生的一个概率就是A区域,也就是我们来买东西的人发生询问的概率是0.18 B区域是0.02,区域是0.24,而区域是0.544个加起来,它的和为一,下面我们进行推理的第三步,我们通过观察到的行为去排除一些不可能的情况,那么。
05:00
作为一名店员,现在我们面临的是顾客已经上前来打招呼,这就意味着我们已经观察到了顾客的这这个行为,所以在可能世界它又增加了一条信息,这条信息就是不询问的可能性,它消失了,为什么呢?因为我们已经观察到顾客询问的这个可能性了。呃,上一节中我们已经提到了,我们将顾客分成了两类,一类是来买东西的,一类是随便逛逛的,其中这两类人包括了询问和不询问两种行为。但是在现实世界中呢,我们作为店员,我已经观察到了他们询问这种行为,那么也就意味着不询问这种行为已经消失了。在图形上的表示就如这幅图所示,就是B区域和D区域,它的可能性是消失的,只需要去观察A区域和C区域,那么现在就到了最后一步,我们需要去寻求来买东西的人的一个贝叶斯的一个逆概率。由于我们已经观察到了询问这一行为,所以使得可能的世界被限定在了两个以内,那我们换句话来说呢?
06:00
就是前面的顾客所属的世界,要么是来买东西询问店员,要么就是随便逛逛询问店员,所以我们的可能世界就集中在了A和C,那我要现在要去计算A和C它的一个占比,可能事件是不是就是A加C,那么A发生的概率是不是A比上A加C,而C的概率,那就是A加C作为分母,然后C作为分子,这样就算出了我们一个可能事件的一个概率,我们来看一下具体的计算,那么这边左边长方形的面积和右边长方形的面积之比等于0.8 : 0.24,然后我们约个分等于3 : 4等于3 : 4,那我们的总体就是三加四就是七份,而来买东发生问的概率就是三除以3/77,而来买东西随便逛逛的概率就是4/7,那么根据这个图形的统计结果,我们就可以发现上前询问的顾客为购买。
07:00
血的概率我们可以推断为3/7,这就是我们一个非S逆概率,或者是一个后验概率,到此为止呢,我们整个S的推断已经结束了,是不是比之前的一些方法都简单了很多呢?下面我们来进行一个简短的总结,今天呢,我们主要讲了如何用图解S的方法去推测那些上前询问的客人是来随便问问的,还是来购买东西的,我们做了几个步骤,首先我们是关于类别进行了一个先验概率的一个设定,也就是我们在客观世界里面,它存在两类人,一类是来买东西的,一类是随便逛逛的,那么我们关于这两类类别,然后做了一个条件概率的设定,设定完这个概率之后呢,我们对用户的行为进行了观察,我们观察到了顾客上前询问,上前打招呼这样的一个行为,那么我们观察到这个行为之后呢,我们就排除了不可能的情况,什么是不可能情况,因为我们,因为我们已经观察到了。
08:00
他上前询问,所以我们排除了他不询问的这样的一个情况,后面的话就是对别概率的一个正则化,最后我们算出了后验概率,也就是非密概率,也就是上前打招呼的一些顾客,他买东西的一个概率,这就是今天的全部内容,感谢大家的关注,后续课程还会持续更新,若大家能够持续关注我的公众号B账号视频号出去万花筒,如果您觉得我们的视频还不错,请给我们点赞关注转发,谢谢大家,我们下期再见。
我来说两句