前面八章介绍了R软件的基础知识,这些知识都是零碎的操作与处理,虽然不能处理一个完整的实际案例,但却非常重要,接下来,主要讲数据挖掘中处理实际案例之前,所需要的一些模型和功能,我们先从传统的统计学开始,然后到数据挖掘算法...具体操作;
例1:有两个样本数据,他们是独立的,且分别来自正太分布的总体,现在我们的问题就是去检验这两个样本所代表的总体的均值是否相等,在统计学中我们认为当然也可以证明两个独立样本的均值之差,经过标准化处理后...,服从t分布,而t分布的概率密度分布图像跟正太分布是差不多的,现在我们假设两个总体均值相等,如果按照假设的来,那么两个样本均值之差及其标准化之后的数值应该是0或者0左右不远处吧(因为样本有随机性,),那么如果我们计算出的值距离...运用R的函数t.test(样本1数据,样本2数据) 就可以检验两个来自正太总体的独立样本.
?...总结:只要其服从什么分布,就用相应的统计量来检验就可以啦,.检验的根据就是,如果你的原假设为真,那么这件事情发生的概率我是可以根据样本实际观测值计算出来的,若得到的结果表明,这个事概率很小很小,比规定的还小