前面讲到了假设检验,可以检验某个简单的结论,判断两个总体是否显著不同,今天,讲统计学中非常经典的一个知识,这就是回归,回归的分类很多,今天主要讲其中的OLS回归,OLS回归包括三大部分,分别是简单线性回归,多项式回归,多元线性回归.回归在数据分析中应用的非常广泛,可以做分类,也可以做预测,当然,更注重预测.接下来,我们讲讲回归的原理及流程。
一.简单线性回归
1.要解决的问题
简单线性回归是要找出一个变量与另一个变量的函数关系,这比相关分析更高一级,相关分析只能找出两个变量是否有线性关系,而线性回归则能找出具体的函数关系.
2.原理
简介:通过样本训练集的数据,运用最小二乘法,即根据拟合的理论值与实际观测值的误差最小化,来找出线性表达式的各个参数.
前提假设:待预测的变量y与自变量x具有线性关系,固定x则对应的y服从正太分布,每一y的值其分布的方差相同
那么,由此我们可以根据训练数据找到一条直线,它近似的表达了x与y的函数关系,其形式如同:y=ax+b,当然,由此式子计算出的y值,我们称之为理论值,它和y的实际观测值有一定的误差,我们把这个误差之和求出来,使之达到最小的情况下,对应的那个函数式子就是我们拟合的线性回归函数
3.操作
模型拟合:
查看模型结果:其中residuals是残差,就是实际值与理论模拟值的误差,intercept是截距,后面的pr(>|t|)是p值,越小越拒绝原假设,结果越显著,还有adjusted R-squared表示模型拟合优度,越大越好.fitted即是通过模型拟合出的理论值.
模型可视化:
拓展:
当自变量为多个时,这时未满需要拟合出一个函数,将y用几个自变量来表示,这在数据挖掘中还有另外一个作用,就是可以降维,将多属性多维数据降维1维,这样来避免维灾,这在以后也会讲到.
检验:
由于我们是假设x和y服从一定条件下,推导出来的一些式子.那么,我们就需要来验证假设是否为真,当假设为真时,我们就承认推导出的式子有用,这时我们用可视化的方式来检验,当然数学中有公式可以检验,但是,比较复杂,我们不必了解,只需知道,当我们用R做假设验证的时候,出来的结果怎么样就可以通过,怎么样就不能通过,不能通过后,我们怎么修改模型即可.
这四幅图分别是
1.残差拟合图(左上)
2.QQ图(右上)
3.位置比例图(左下)
4.残差杠杆图(右下)
正态性 :
当预测变量值固定时,因变量成正态分布,则残差值也应该是一个均值为0的正态分布。正态Q-Q图(Normal Q-Q,右上)是在正态分布对应的值下,标准化残差的概率图。若满足正态假设,那么图上的点应该落在呈45度角的直线上;若不是如此,那么就违反了正态性的假设。 独立性:
你无法从这些图中分辨出因变量值是否相互独立,只能从收集的数据中来验证。上面的例子中,没有任何先验的理由去相信一位女性的体重会影响另外一位女性的体重。假若你发现数据是从一个家庭抽样得来的,那么可能必须要调整模型独立性的假设。 线性 :
若因变量与自变量线性相关,那么残差值与预测(拟合)值就没有任何系统关联。换句话说,除了白噪声,模型应该包含数据中所有的系统方差。在“残差图与拟合图”(Residuals vs Fitted,左上)中可以清楚的看到一个曲线关系,这暗示着你可能需要对回归模型加上一个二次项。 同方差性:
若满足不变方差假设,那么在位置尺度图(Scale-Location Graph,左下)中,水平线周围的点应该随机分布。该图似乎满足此假设。
最后一幅“残差与杠杆图”(Residuals vs Leverage,右下)提供了你可能关注的单个观测点的信息。从图形可以鉴别出离群点、高杠杆值点和强影响点。下面来详细介绍。
4.改进
1. 删除离群点和强影响点
2. 变换—当y不服从正太分布时,
3. 方差不相同,变换Y的形式.
未完待续...