前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >优思学院|箱形图利用1.5系数判断异常值的理由

优思学院|箱形图利用1.5系数判断异常值的理由

原创
作者头像
用户2865703
发布2022-07-19 14:01:08
8590
发布2022-07-19 14:01:08
举报
文章被收录于专栏:质量管理
优思学院|箱形图利用1.5系数判断异常值的理由
优思学院|箱形图利用1.5系数判断异常值的理由

在六西格玛众多的工具当中,箱形图最常见于描述数据分布的情况。箱形图可以让我们直观地了解到数据的实际分布情况,它的范围是什么,以及它的偏移度怎样。

最小值是数据集中的最小值。

而最大值是数据集中的最大值。

因此,这两者之间的差异告诉我们数据集的范围。

中位数是数据的中位数(或中心点),也叫第二四分位数。 Q1是数据的第一个四分位数,也就是说,25%的数据位于最小值和Q1之间。

Q3是数据的第三个四分位数,也就是说,75%的数据位于最小值和Q3之间。

Q3和Q1之间的差值被称为四分位数间范围或IQR。

IQR = Q3 - Q1

检测异常值的方法

为了使用这种方法检测异常值,我们会定义了一个新的范围,我们称之为决策范围,任何位于这个范围之外的数据点都被认为是异常值,这个范围的定义是这样的:

下限:(Q1 - 1.5 * IQR)

上限:(Q3 + 1.5 * IQR)

任何小于下限或大于上限的数据点都被认为是异常点。

有很多学生都提出了同一个疑问,就是为什么要用1.5这个值呢?

的确,谁有权利去定义这个值呢?这个值显然控制了范围的敏感性,从而控制了决策的规则。

其实,这个值的定义,也是离不开正态分布的原理的。

根据正态分布:

点击可播放视频
点击可播放视频

整个数据中约有68%位于平均值(μ)的一个标准差(<1σ)之内(两边)。

大约95%的整体数据位于均值(μ)的两个标准差(2σ)之内(两边)。

大约99.7%的数据位于平均值(μ)的三个标准差(<3σ)之内(两边)。

其余0.3%的数据位于平均值(μ)的三个标准差(>3σ)之外(两边)。

而Q1和Q3,分别位于离平均值-0.675σ和+0.675σ。

如果我们用 " 1 " 这个值作为上下限的计算。

下限:

= Q1 - 1 * IQR

= q1 - 1 * (q3 - q1)

= -0.675σ - 1 * (0.675 - [-0.675])σ

= -0.675σ - 1 * 1.35σ

= -2.025σ

上限:

= Q3 + 1 * IQR

= Q3 + 1 * (Q3 - Q1)

= 0.675σ + 1 * (0.675 - [-0.675])σ

= 0.675σ + 1 * 1.35σ

= 2.025σ

因此,当用1时,根据IQR方法,任何数据如果超出平均值(μ)的2.025σ,在任何一边都应被视为异常值。但是,我们知道,我们不能采取 1 作为计算,因为这使得决策范围过于排他,也意味着会有近5%的有效数据将会被视为异常值。

如果我们用 " 2" 这个值作为上下限的计算。

下限:

= Q1 - 2 * IQR

= q1 - 2 * (q3 - q1)

= -0.675σ - 2 * (0.675 - [-0.675])σ

= -0.675σ - 2 * 1.35σ

= -3.375σ

上限:

= Q3 + 2 * IQR

= Q3 + 2 * (Q3 - Q1)

= 0.675σ + 2 * (0.675 - [-0.675])σ

= 0.675σ + 2 * 1.35σ

= 3.375σ

因此,使用2时,根据IQR方法,任何数据如果超出平均值(μ)的3.375σ,则应被视为异常值。但明显这会使得决策范围过于宽泛,意味着即使有异常的情况或者数据出现,也不会被定义为异常值。

如果我们用 " 1.5 " 这个值作为上下限的计算。

下限:

= q1 - 1.5 * iqr

= q1 - 1.5 * (q3 - q1)

= -0.675σ - 1.5 * (0.675 - [-0.675])σ

= -0.675σ - 1.5 * 1.35σ

= -2.7σ

上限:

= q3 + 1.5 * iqr

= q3 + 1.5 * (q3 - q1)

= 0.675σ + 1.5 * (0.675 - [-0.675])σ

= 0.675σ + 1.5 * 1.35σ

= 2.7σ

当使用1.5时,根据IQR方法,任何数据如果超出平均值(μ)的2.7σ,在任何一边都应被视为异常。而这个决策范围是最接近正态分布所告诉我们的:3σ = 99.72% 的数据。

如果希望更精确的得到3σ,我们需要取值=1.7,不过1.5 是一个比较容易记得和容易使用的数值。事实上,在统计学上的决策原则是基于机会率上,但同时也要考虑操作上的便利性的。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 检测异常值的方法
    • 如果我们用 " 1 " 这个值作为上下限的计算。
      • 如果我们用 " 2" 这个值作为上下限的计算。
        • 如果我们用 " 1.5 " 这个值作为上下限的计算。
        相关产品与服务
        大数据
        全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档