专栏首页算法channel置信度&置信区间,这篇讲解我给100分!

置信度&置信区间,这篇讲解我给100分!

今天这篇聊聊统计学里面的置信度和置信区间,好像没怎写过统计学的东西,这篇试着写一写。

1.点估计

在讲置信度和置信区间之前先讲讲点估计,那什么是点估计呢?给你举两个例子你就知道了。

现在你想要知道一个学校学生的身高情况,你可以把所有的学生测量一遍,然后得到答案,这种方法可以,而且得到的数据肯定是最真实的,但是这里有一个问题,什么问题呢?就是如果学生人数太多,全部测量的话工作量太大了,那怎么办呢?那就随机挑选一部分学生,然后测量这一部分学生的身高,得到一个值(一般用平均值),用这一部分的平均值来估计整体学生的身高情况,我们把这种估计方式称为点估计

现在你要看一下某流水线上 iphone 手机的不合格率,怎么看呢?最笨的方法还是把所有的手机全部开机试用,统计不合格手机的占比,这样可以吗?很明显是不可以的。那怎么才能知道这一条流水线的质量,那就是抽样,抽取整条流水线上的部分手机进行检验,会得到一个合格率,然后用这个合格率去估计整条流水线的合格率,同样这种方式也是点估计

那现在是不是大概理解点估计的意思了,就是用随机抽样的样本的计算出来的指标值去估计整体指标情况。常用的点估计方法有如下:

用样本均值估计总体均值 用样本方差估计总体方差 用样本的分位数估计总体分位数 用样本的中位数估计总体中位数

2.区间估计

以前上学的时候经常会考试,考完试以后老爱去估分,一般人估分不太可能直接估一个具体的数,肯定都是估一个大概的数,啥叫大概的数呢?就是比如高考分数预计 600 左右,这个左右其实就是一个区间,还有平常很多食品包装袋上会写 ±0.5 KG,表示啥意思呢?就是要么多给了你 0.5 KG,要么少给了你 0.5 KG。我们把这种用一个范围来对一个事情进行估计的方式称为区间估计,得出来的区间就是置信区间

3.置信度

你是估算出一个区间了,但是你估算的准不准呢?准确度又有多大呢?我们把这个估算的区间的准确度(可信度)称为置信度。比如说我有 95% 的把握估计我高考分数是 600-650,这里的置信区间就是 [600,650],置信度就是 95%。

一般置信度和置信区间是同向的,啥意思呢?就是置信度和置信区间一般是相同趋势。当置信度很高时,置信区间也会很大;当置信区间很大时,置信度也会很高。

比如我有 100% 的把握估计我高考分数是 0-750,这里的置信区间是 [0,750] 包含了所有分数的可能,那置信度肯定是 100% 哈。

4.如何计算置信区间

那么我们该如何通过部分样本来计算总体的一个置信区间呢?主要有下面几个步骤:

step1:首先明确要求解的问题。就是你要预估什么?不管是全校学生身高还是学生成绩。

step2:求抽样样本的平均值与标准误差(standard error)。注意标准误差与标准差(standard deviation)不一样(标准差反映了整个样本对样本平均数的离散程度,标准误差反映样本平均数对总体平均数的变异程度)。

标准差等于方差开根号。 标准误差等于样本标准差除n的开根号。

step3:确定需要的置信水平。比如常用的 95% 的置信水平,就是我有 95% 的把握估算对,这样可以保证样本的均值会落在总体平均值2个标准差范围内。

step4:查z表,求z值。什么是z表呢?是不是已经忘记了,z表是标准正态分布表,是用来反映标准分与概率值之间的关系表,也就是通过标准分能查到概率值,通过概率值也可以反查标准分。

现在我们知道了 95% 的置信水平对应的概率值是 2.5% ,只需要通过标准正态分布表查出 2.5% 概率对应的标准分即可,也就是z值。

常用置信水平与标准分z值的对应表

置信水平

Z值

90%

1.64

95%

1.96

99%

2.58

step5:计算置信区间

a = 样本均值 - z*标准误差 b = 样本均值 + z*标准误差

最后置信区间就为 [a,b]。

关于置信区间的求解还可以参考:

https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/confidence-interval/


阅读更多:

Python GUI开发,效率提升10倍的方法!

文本数据的特征提取都有哪些方法?

本文分享自微信公众号 - Python与机器学习算法频道(alg-channel)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习的核心概念置信度和置信区间,我用这个例子把它讲明白

    过去两个月,例子君每天总结和梳理小例子,关于Python基础、常用内置库、正则表达式、装饰器、生成器、迭代器、绘图工具,Python多线程等。它们很简单,也就几...

    double
  • git|常用命令总结

    git help tutorial 获取常规的帮助指导 01 — 创建本地工作库 init 创建一个空的Git库或再次初始化当前库 clone ...

    double
  • 面试中遇到这道算法题,你能答对吗?(送10元现金红包)

    有许多读者在后台给我留言,说自己即将面临毕业或者换工作,希望可以多为他们分享一些面试相关知识。

    double
  • 聊聊置信度与置信区间

    今天这篇聊聊统计学里面的置信度和置信区间,好像没怎写过统计学的东西,这篇试着写一写。

    张俊红
  • 1 分钟小技巧系列 | 如何快速制作一个易读的 Git 版本号

    以前在使用 CSV、SVN 等版本管理软件时,这些版本管理软件都有提供版本编号可以查看。我们由版本编号就可以判断一个文件的新旧,这个特性在 Git 上就有些不...

    iMike
  • 通过docker image 获取到 dockerfile

    --format {{.CeratedBy}} 只输出 CREATE BY 这一列

    张琳兮
  • Hbase初识

    注意: HBaseAdmin,HTable,ResultScanner 对象最后都要close()

    用户1621453
  • NIPS 2018 | Quoc Le提出卷积网络专属正则化方法DropBlock

    深度神经网络在具备大量参数、使用大量正则化和噪声时效果很好,如权重衰减和 dropout [1]。尽管 dropout 的首次成功与卷积网络相关,但近期的卷积架...

    机器之心
  • CES2020产品和技术趋势总结

    语音控制已经非常稳定和成熟,主要的虚拟助理公司都在全力进一步提升主力的可用性。但是距离真正的对话式能力(conversational ability)还不成熟,...

    用户6026865
  • IBM Watson提供的认知计算服务介绍

    Cognitive Service Introduction Twitter:@huiwenhan Weibo:@huiwenhan Agenda Wats...

    首席架构师智库

扫码关注云+社区

领取腾讯云代金券