大佬教你用贝叶斯方法挑西瓜

首发于微信公众号『运筹OR帷幄』

作者简介:霍华德 - 博士毕业于新加坡国立大学电子及计算机系,现就职于腾讯AI平台部,主要方向为搜索和自然语言处理。知乎帐号霍华德,现加入【运筹OR帷幄】担任AI板块主编。

AI板块简介: 致力于介绍AI最基本理论与发展前言,涵盖AI领域方方面面,包括但不限于:计算机视觉、自然语言识别、语音识别、强化学习及各种工程实践经验,如模型压缩与服务部署。

直观理解贝叶斯公式

先来一个问题:一机器在良好状态生产合格产品几率是90%,在故障状态生产合格产品几率是30%,机器良好的概率是75%,若一日第一件产品是合格品,那么此日机器良好的概率是多少?

看公式是不是很迷惑?我给大家画了一个很直观的图:

问题要求的机器良好的概率=左下角那个蓝色方格的面积/所有蓝色部分的面积,是不是很好懂?

先验概率是一般情况下机器良好的概率0.75(蓝色面积/总面积),在得知当天有合格产品产出后,灰色面积就没可能了,经过贝叶斯定律的计算后,就得到后验概率0.9(左下角蓝色面积/蓝色总面积)。

下面来给大家讲一个小故事

小红是小明正在追求的女神。今天,小明好不容易把小红约出来逛街,逛着逛着,女神小红说口渴了,两人来到西瓜摊前,这时,小红抿嘴一笑,突然想考察一下小明的姿势水平,说道:“小明你不是做机器学习的码农吗?如果要你用机器学习挑西瓜,你会怎么做?”

小明会心一笑,这不是撞我枪口上吗?看我的蒂花之秀~

是机器学习挑西瓜的基本思路是这样滴,先尽量观察西瓜的特征,从特征中找出和“好瓜”有关的特征,这样的特征非常多,让我们头脑风暴一波:

直观特征:包括但不限于西瓜的颜色、根蒂的形状、瓜皮的纹理、敲击的声音等等~外部环境特征:是不是本地瓜,瓜的品种,上市时间等等~还可以有很多其他特征: 如瓜店老板的诚信度,这个西瓜的销售情况等等~

小明呱啦呱啦一顿说得正起劲,小红说:stop!你说这么多我头都大了,你怎么知道那些特征有用那些特征没用呢?

小明缓缓道来:哈,这个简单,可以用贝叶斯方法!

用贝叶斯方法进行特征分析

这样

时便可以说明,”是好瓜“的概率比”不是好瓜“的概率大~但是实际上除法并不好,容易产生过小的数值,发生underflow,所以我们两边同时取对数log函数,得到:

公式左边是西瓜“是好瓜”的逻辑发生比,又称作logit,逻辑发生比大于0就说明是好瓜的概率较大。

接下来,我们假设所有特征之间是独立的,可以用条件独立假设:

将它们带入逻辑发生比公式:

我们发现等式右边变成了各个特征

的求和~特征的

值越大,说明这个特征对西瓜"是好瓜"的影响越大,相应的说明这个特征是一个显著特征。而值比较小的特征说明影响较小,不是一个很有效的特征,剔除掉也不会有很大的影响。

这样就能筛选出最重要的特征了~

小明娓娓道来,小红听得入了迷,暗自在心中给小明加了一分~

版权说明:本文由『运筹OR帷幄』编译整理,不作为商业用途,如有内容侵权,我们将随时删除。

欢迎查看原文,获取更多讯息!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181107A0WDVD00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券