专栏首页PPV课数据科学社区【V课堂】R语言十八讲(九)—-假设检验

【V课堂】R语言十八讲(九)—-假设检验

前面八章介绍了R软件的基础知识,这些知识都是零碎的操作与处理,虽然不能处理一个完整的实际案例,但却非常重要,接下来,主要讲数据挖掘中处理实际案例之前,所需要的一些模型和功能,我们先从传统的统计学开始,然后到数据挖掘算法,首先,我们会讲讲统计学中的基础知识模型,包括假设检验,线性回归,方差分析,等等.

1.检验

什么叫检验叻? 很简单就是去判断一件事的真伪,运用到统计学上就是去检验一个假设的真伪,去检验一个结论,一个说法的真伪.

数学原理:根据提出的假设,推导出一个理论性结果,然后与样本的实际观测结果相对比,若其差距超出了给定的范围,我们就认为假设不成立,也就是拒绝原假设,若其差距没有超出给定的范围,我们只是暂时接受假设,这里的的接受是指含有一点无奈的意思,即暂时还没有充分的证据推翻你的结论,而无奈接受结论,因为我们这里并没证明结论一定为真,只是通过这个模型没有推翻而已,这就是接受无奈,反对有理.在实际生活中也有很多这样的思想,比方疑罪从无的原则,即只要没有充分的证据证明我有罪,那么只能无奈的接受我没有罪.所以假设检验有一定的局限性,在运用时,原假设的设定非常有讲究..

具体操作;

例1:有两个样本数据,他们是独立的,且分别来自正太分布的总体,现在我们的问题就是去检验这两个样本所代表的总体的均值是否相等,在统计学中我们认为当然也可以证明两个独立样本的均值之差,经过标准化处理后,服从t分布,而t分布的概率密度分布图像跟正太分布是差不多的,现在我们假设两个总体均值相等,如果按照假设的来,那么两个样本均值之差及其标准化之后的数值应该是0或者0左右不远处吧(因为样本有随机性,),那么如果我们计算出的值距离0很远很远,这种事情发生的概率很小很小,但现在我们一次样本中就发生了,我们有理由相信根本不是我们中了彩票,一下子就碰到了这么小概率的事件,而是你给出的假设有问题,不是真实的.所以我们有理由拒绝给出的假设,从而推翻某一结论.

运用R的函数t.test(样本1数据,样本2数据) 就可以检验两个来自正太总体的独立样本.

结果分析:画红线是我标上去的,1.分别是t检验量,自由度,和P值 2.95%的置信区间 3.两组数据的平均值

P值(P value)就是当原假设为真时所得到的样本观察结果或更极端结果出现的概率。如果P值很小,说明原假设情况的发生的概率很小,而如果出现了,根据小概率原理,我们就有理由拒绝原假设,P值越小,我们拒绝原假设的理由越充分。这里是0.96比较高,就接受原假设咯. t值在置信区间内我们就暂且相信原假设了..

而非独立样本则t.test(样本1数据,样本2数据,paired=T)

多于两组的样本我们用方差分析,这在以后会说到.

若不知道总体是否服从同一分布,但两组样本独立 则 wilcox.test( 样本1数据,样本2数据 )

若不知道总体是否服从同一分布,且两组样本不独立,则 wilcox.test( 样本1数据,样本2数据 ,paired=T )

例2.有一组数据,来自正太总体.现在检验其总体均值是否为某个数,比方100.那么原假设就是u=100,而在统计学上已经证明样本均值标准化后,服从相应的正太分布.那么我们就用Z分位检验就可以了.

总结:只要其服从什么分布,就用相应的统计量来检验就可以啦,.检验的根据就是,如果你的原假设为真,那么这件事情发生的概率我是可以根据样本实际观测值计算出来的,若得到的结果表明,这个事概率很小很小,比规定的还小,我们就有理由拒绝原假设,若其概率没有比规定的小,我们就暂且接受吧.

未完待续

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-06-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【V课堂】R语言十八讲(十四)—几大检验

    在统计分析中,我们会听到很多检验,有T检验,卡方检验,秩和检验,F检验,费舍尔检验等等,这么多检验,光听就要晕了,还怎么用啊?哪种检验什么时候能用什么时候不能用...

    小莹莹
  • 当统计学遇上大数据——P值消亡

    有一天,我走进统计学的神殿 ,将所有谎言都装进原假设的盒子里,“P值为零”,一个声音传来,“但你已经不能再拒绝,因为,P值已经死了”从此,这个世界上充斥着谎言。...

    小莹莹
  • 【V课堂】R语言十八讲(十五)—-置换检验和自助法

    不知道看到这里,读者有么有发现,前面讲了那么多方法,几大检验,回归分析,方差分析“都有一个共同的特点,那就是有一定的前提假设,只有满足这个假设时,模型才有较好的...

    小莹莹
  • 如何科学合理薅FreeBuf活动“羊毛”

    过年前网站推出一个叫“网藤杯智能安全机器人养成计划”的活动,刚开始以为是一个养蛙类型的活动,研究过后发现,这是一个上传数据拿奖品的活动,看着礼品还挺诱人的,作为...

    FB客服
  • 《spss统计分析与行业应用案例详解》:实例九 单一样本t检验

    spss的单一样本t检验过程是瑕设检验中最基本也是最常用的方法之一,跟所有的假没检验一样,其依剧的基木原理也是统计学中的‘小概率反证法”原理。通过单一样本t检验...

    统计学家
  • Python计算信息熵

    信息熵可以用来判定指定信源发出的信息的不确定性,信息越是杂乱无章毫无规律,信息熵就越大。如果某信源总是发出完全一样的信息,那么熵为0,也就是说信息是完全可以确定...

    Python小屋屋主
  • 什么是 ROC AUC

    本文结构: 什么是 ROC? 怎么解读 ROC 曲线? 如何画 ROC 曲线? 代码? 什么是 AUC? 代码? ---- ROC 曲线和 AUC 常被用来评价...

    杨熹
  • 理解生成模型与判别模型

    我们都知道,对于有监督的机器学习中的分类问题,求解问题的算法可以分为生成模型与判别模型两种类型。但是,究竟什么是生成模型,什么是判别模型?不少书籍和技术文章对这...

    SIGAI学习与实践平台
  • SAP CRM BSPWDApplication.do

    版权声明:署名,允许他人基于本文进行创作,且必须基于与原先许可协议相同的许可协议分发本文 (Creative Commons)

    Jerry Wang
  • 史上最佳的几个Linux 命令行的文本编辑器清单,建议收藏。

    文本编辑软件在任何操作系统上都是必备的软件。我们在 Linux 上不缺乏非常现代化的编辑软件,但是它们都是基于 GUI(图形界面)的编辑软件。

    java架构师

扫码关注云+社区

领取腾讯云代金券