前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习的核心概念置信度和置信区间,我用这个例子把它讲明白

机器学习的核心概念置信度和置信区间,我用这个例子把它讲明白

作者头像
double
发布2020-02-14 12:39:24
1.1K0
发布2020-02-14 12:39:24
举报
文章被收录于专栏:算法channel算法channel

过去两个月,例子君每天总结和梳理小例子,关于Python基础、常用内置库、正则表达式、装饰器、生成器、迭代器、绘图工具,Python多线程等。它们很简单,也就几行代码,各位读者反映也很不错哒,养成了每天看小例子的习惯。

例子君很高心能得到大家的喜爱,也会再接再厉,继续坚持,争取创作出更加优质的小例子。已有的200个小例子,没有看到的童鞋,直接点击下面链接:

200个小例子,点击最下方---》阅读原文

例子君,带你过去。

接下来,bee君出场了,勤劳的小bee君,将会每天起早或晚归继续奋战在电脑前,为大家输出更加高质量的原创文章。

人都是有惰性的,尽管勤奋程度还算可以,但是有时也偷懒。今天晚上本来想着躺在床上玩耍来着,想到实力不允许,还得继续复习基础知识,扎实输出点干货。

关注我时间久的老读者,可能点进来后被吓住了,这还是之前的那个小编吗?他的文章署名不是flody, zhenguo 或 zglg吗?今天怎么是bee君了呢。。。

哈哈哈,这几天,我翻看之前的文章,看完一篇,觉得通篇好枯燥啊,难道就不能添加点表情吗,好得也为这么干的文章添加点乐趣吧,自己都看不下去,还要祈求更多的人点开看你。所以,我先尝试做出几点改变啊:

1) 自己的原创文章署名:bee君,以后bee君就是小编了,小编就是bee君;

2) 文中会适当添加符合文章风格和主题的表情图,添点乐子,同时更好表达我想说的;

3) 了解我的读者知道,平时上班9>9*,如果当天空余时间很少,我会写一篇直击要害的技术小短文,实在没时间,我会分享一篇技术大佬的好文;如果时间较多,我会写一篇长点的包括多个知识点的文章;

4) 2020后半年,我的生活将会有一些重大改变,到时相信会有更多的课余时间,为大家推送更多高质量的技术文章;

5) 以上所有,都是出于热爱,写作已经成为生活的一部分。

那么,接下来,我会更多推送偏向Python数据分析,Python机器学习,深度学习的系列文章,主要围绕这几条线展开。所有的文章,尽量保证承前启后,是一个系列,一个系列的,杜绝东一榔头西一棒子。

注意我不是什么所谓的大神,就是喜欢总结点东西而已,所写的这些笔记也都得有个参考,主要的输入形式包括,项目中用到的重要技能包和工具包,不一定是自己很熟的,我更喜欢写一些自己不熟的,经过查查资料,产生独特理解的,这种写起来,会非常嗨;再有,我也关注了很多公众号,他们推送的文章对我有启发,让我产生独特的一些想法或理解,这种我也会写;看书,看视频,github,博客等等,只要是对自己和大家有用的技能。

我会尽量写的通俗易懂,当然这是有相当挑战的,有些知识压根就不是那么易懂,再加上个人能力有限,理解不到位,不深刻,所以就更难写的通俗易懂,但是这不妨碍,我继续前行,这是我的目标,我会不断向前,螺旋式的靠近目标。我也很感激你们的陪伴,这个舞台,我自己一个人瞎逼逼,更有可能会半途而废,但是有了你们的观看,我将会义无反顾,往前走。

好了,言归正传

1 引出概念

今天,讲一个数据分析或机器学习里非常重要的概念,置信度和置信区间。为什么说置信度和置信区间非常重要?举个例子。

拿到一个电影数据集,为了挑选出喜剧类型的电影,在豆瓣上评分前10名。这看似并不困难,使用pandas几行代码差不多就能完成分析,给出一个结果。

但是,当回过头来仔细检查时,却发现,选出的10部电影,竟然有5部电影只有一个人评分,并且都是给了10分。

基于这种情况,评选出的前10名,自然不能服众,不具有很强的说服力。

我们更期望的是,一部电影被众多观影者打分,然后从这些电影中,挑选得分更高的电影。

这里就能引出:置信度和置信区间的概念。

一部电影被众多人打分,最后平均得分为8.5,那么这部电影的得分在8.2~8.8分,置信度将会很高,假设为90%;

相反,一部电影只有两个人打分,尽管最后平均分为9.5分,但是在区间:9.2~9.8分的置信度,可能就没那么高,预估为50%吧。言外之意,这个置信区间9.2~9.8被否的可能性会更大,毕竟只有50%吗。

2 理论解释

如果我们叫无数个观影者给某部电影打分,下面的图就是总体分布图,其平均得分为 μ ,标准差为 σ :

如果我们已经得出μ 和 σ ,我们可以说约 68% 的样本会落在红色区域:平均得分在上下两个 σ内的置信度就是95%.

假设样本无穷大,这样得到某部电影的平均得分就是总体分布得分,平均分为0.65分(满分为1分), 标准差为0.03.

那么这部电影的平均得分在置信区间0.62~0.68 分的置信度约为95%.

所以,为了增强结果的说服力,可以过滤掉那些被评分较少的电影,那么到底少于多少就应该被过滤掉,这里也有说法。

3 求95%置信度对应样本个数

已知样本标准差,Z值,置信区间的长度,根据公式,便能计算出样本个数,具体计算公式大家自行查询,在此不列出。

表格参考如上,如果我们按照95%的置信度,允许误差为5%的话,需要的样本个数至少为385.

所以,我们的问题已经解决了,要找出至少有385次被评分的所有电影,按照喜剧的平均分依次从大到小排序,选出前10.

因为用到Z值,在此说明下Z值的求法,作为知识扩充。

4 求95%置信度对应的Z值

允许电影评分有左右各有误差,即0.05/2=0.025。此时要查尾部面积是0.025时的Z值。

查Z值表时要在表中间找到0.975。从这一行水平往左得到1.9,往上对得到0.06,把两个数加起来就是1.96。

5 求95%置信度对应的置信区间

计算置信区间:

第一步,已知样本,求样本平均值、标准差和标准误差。样本标准误差:

第二步,确定置信度(置信水平),常用的置信度是95%。

第三步,求置信区间[a,b]上下限,Z值求法参考上面,所以容易得出:

a = 总体平均值 - Z*标准误差

b = 总体平均值 + Z*标准误差

以上这些知识点,相信大家在网上也能搜出来,但是学习最重要的是知识逻辑梳理。一个一个的知识点这就好比放到那里的一个一个的珠子,而知识的逻辑体系就好比那一根线,它把一个一个的珠子串联起来,这根线就是逻辑线。我更希望通过辛苦总结,形成这样一根串珠子的线,这才是最大的价值所在,而像珠子的知识获取手段目前从来都不匮乏。

Python与算法社区

若有用,点在看,帮助更多人

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-01-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员郭震zhenguo 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档