Z-Test vs T-Test vs F-Test vs χ2-Test

一般来说常用的假设检验有四种, Z-Test , T-Test, F-Test 和 χ2-Test。 但是什么时候用哪个测试呢? 本文提供部分比较,以供参考。

假设检验

两种对立的假设

零假设 (Null Hypothesis) :一般指两者之间没影响, 譬如无罪。

对立假设(Alternative Hypothesis):指两者之间有影响,存在解释和预测的可能性。

两种错误

弃真错误 (Type I Error) : H0是真的, 但是却没有接受H0的假设。

P( ~H0 | H0 ) = α

例如下图, 无罪的情况下做了有罪的判断。

存伪错误 (Type II Error): H1是真的, 但是却接受了H0的假设。

P( H0 | H1 ) = β

例如下图,有罪的情况下做了无罪的判断。

对应到下图, α就是没有接受H0的部分。 β就是接受了H0的部分。

1-α的部分就是我们经常叫置信区间(Confidence Interval)的部分。 而偏离均值点距离经常是方差的倍数来表示, 这个倍数一般称为Z值。

从上面可以看到, 要计算α,β都是需要根据分布曲线来定义的。 因此这些常见的分布就是本人讨论的测试的基础。

常见分布(Normal, Student-T, F, Chi-Squared)

Z-Test 基于 正态分布(Normal / Gaussian Distribution):

高斯是正态分布的发明人。

T-Test 基于 学生分布(Student-T Distribution)

William Sealy Gosset 是T分布的发明人

F-Test 基于 F分布(Fisher–Snedecor distribution)

Fisher 和 Snedecor 是F分布的发明人

Chi-squared Test 基于 卡方分布(Chi-squared Distribution)

Karl Pearson 和 Friedrich Robert Helmert 是Chi-squared的发明人。

所以简单来说, 经典统计学三杰, Pearson, Fisher, Gosset分别发明了Chi-Squared, F, 和T分布。 再加上数学王子Gauss的Normal分布。 就是构成我们要讨论的检验的曲线。

检验的区别

正态分布和学生分布都是描述均值为主, 而F和卡方分布主要描述方差为主。

因此对应到检验, Z-Test和T-Test也是以均值位置为主的检验, 而F-Test和χ2-Test是以方差为主的检验。

均值:

样本大于30 : Z-Test

样本小于30 : T-Test

方差:

连续值 : F-Test

符号 : χ2-Test

多样本扩展的情况

数量还是质量相关的检验?

方差还是均值相关的检验?

数量相关的, 方差的检验

数量相关的, 均值的检验

质量相关的检验

综上, 假设检验需要根据需求来判断采用何种假设检验的。 本人简单概述了 Z-Test , T-Test, F-Test 和 χ2-Test大体差异。 更多细节需要在实践中进一步把握。

参考:

http://biology.stackexchange.com/questions/13486/deciding-between-chi-square-and-t-test

https://en.wikipedia.org/wiki/Statistical_hypothesis_testing

http://www.differencebetween.net/miscellaneous/difference-between-z-test-and-t-test/

http://stats.stackexchange.com/questions/26748/how-to-represent-statistical-power-graphically-for-a-given-hypothesis-test

http://wiki.mbalib.com/wiki/%E5%81%87%E8%AE%BE%E6%A3%80%E9%AA%8C

https://www.quora.com/Whats-the-difference-between-an-F-Test-and-T-Test

http://brandalyzer.wordpress.com/2010/12/05/difference-between-z-test-f-test-and-t-test/

http://www.sigmazone.com/Articles_BeyondthetandFTest.htm

原文发布于微信公众号 - AI2ML人工智能to机器学习(mloptimization)

原文发表时间:2016-10-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

手把手 | 用Python语言模型和LSTM做一个Drake饶舌歌词生成器

1674
来自专栏iOSer成长记录

iOS-识别图片中二维码

在iOS的CoreImage的Api中,有一个CIDetector的类,Detector的中文翻译有探测器的意思,那么CIDetector是用来做哪些的呢?它可...

1641
来自专栏AI研习社

用 Python 分析四年NBA比赛数据,实力最强的球队浮出水面

分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时...

4323
来自专栏yw的数据分析

ONCOCNV软件思路分析之tumor处理

前期处理 perl脚本统计RC(RC(read counts)) 读入control baseline 和 sigma(最后baseline 预测的mad值) ...

41817
来自专栏python读书笔记

《算法图解》NOTE 1-算法的渐近表示法以及二分法1 .渐近表示法2.二分法

1536
来自专栏小樱的经验随笔

DFS中的奇偶剪枝学习笔记

奇偶剪枝学习笔记 描述 现假设起点为(sx,sy),终点为(ex,ey),给定t步恰好走到终点, s | ...

2754
来自专栏深度学习计算机视觉

数据挖掘之认识数据学习笔记相关术语熟悉

相关术语熟悉 首先认识数据的属性 属性是一个数据字段,表示数据对象的一个特征 标称属性 标称属性的值是一些符号或事物的名称,这一些值可以看做是枚举的 比如,职...

2806
来自专栏量化投资与机器学习

七步理解深度学习

原文链接请点击阅读原文。 There are many deep learning resources freely available online,but...

2069
来自专栏机器学习原理

NLP(3)——seq to seq

普通作弊的基础上,回顾上一刻的答案 4.学渣作弊(attention机制)

1852
来自专栏灯塔大数据

每周学点大数据 | No.19全0 数组的判定

No.19期 全0 数组的判定 Mr. 王:接下来我们讲一类时间亚线性判定算法,先来举个例子吧。假设有一个数组A,其中包含0 和1,我们需要判定数...

2906

扫码关注云+社区

领取腾讯云代金券