首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

多元线性回归分析

多元线性回归

我们前面学习过了一元线性回归方程,说白了就是一个变量的方程,而多元线性回归呢,就是多个变量的方程咯。

比如某商品的销售量,可能受收入水平、消费习惯、产品质量、价格、广告等多因素的影响,再比如,水泥凝固时放出的热量多少,是与其中4种化学成分有关等等,生活中的例子不胜枚举。那么,我们如何来建立多元线性回归模型呢?

我们仍旧用样本来估计回归方程式,就是:

哇塞,这么多的参数,看着有点晕啊

我们就以水泥凝固放出的热量为例好啦。

放出的热量是受4个因素的影响,分别是:

x1,x2,x3,x4

具体是什么因素我们不关心啦,只需知道是4个变量即可。

某研究员测试了一组数据如下:

有了数据了,那下面该建立回归方程式咯,我们不假思索的就能写出公式:

下面该你了,如何求这些系数呢?

有同学张口就来:最小二乘求偏导数呗。

但是,这也只能是说说而已,一元回归方程的偏导已经把你玩成菊花残了吧?这回还想来4次?嗯?

那不用最小二乘求偏导,那能用啥?

线性代数威力无穷啊

回归方程式为:

大家应该都知道,4个未知数的方程,起码得有4组数据才能求解出来。

我们上述例子给了13组,反正多多益善了,不低于4组就行。

假设这些数据都正好落在回归方程式上:

就代表第1组数据的第1个,也就是7,

就代表第4组数据的第2个,也就是31,

依次类推。。。

看到这,你想到了什么?线性代数对吧?

用个更简单的矩阵形式写出来:

X代表测试数据的自变量,B代表系数,Y代表测试数据的因变量。

好漂亮的公式呀!

但是,不行啊,这些点根本不可能同时都在线性回归线上嘛~~

大家还记得我们线性代数中学过的投影的概念吗?不记得的同学可以翻阅一下

这篇文章

我们当时是用了个转置矩阵来求最优解的:

其中就是待求解的系数矩阵。

咦,这不结果就出来了:

哇塞,伟大的线性代数呀!!

幸亏有了这个先进武器,否则非被偏导数强奸的体无完肤摇摇欲坠为止~~

判定系数

计算出回归方程后,下面的工作当然是测量其拟合程度了。

一元线性回归中,我们使用了判定系数来测算,这里也是一样的。

其中,

代表拟合值,也就是把Xi代入回归方程求解得到的值;

代表观察值,就是已给定的一组数据的Y值。

代表平均值,用已给定的数据加和求平均即可。

说明:

判定系数的分子就是拟合值与平均值的差异;

分母就是观察值与平均值的差异,

二者做对比(比值),就是拟合的程度了。

修正判定系数

有时候,只用判定系数来测算拟合精度,是有一定缺陷的。

怎么说呢?

比如我开了一家饭馆,那么这家饭馆的月营业额,是与以下几个因素有关:

1)店铺面积。

2)距离车站的距离。

当我算出一个回归方程并计算了它的判定系数后,再加入一个因素:

3)店长的年龄。

这时你再计算它的判定系数,发现它变大了。

然后我再加一个元素:

4)店员的颜值。

判定系数更大了。

咦?不对吧!

拟合程度,跟变量个数有关吗?

用脚指头想想,拟合程度跟变量个数是风马牛不相及的,没有任何关系,所以这样得到的判定系数肯定不靠谱。

那咋整?

判定系数的问题在于它没考虑变量的个数问题,我们必须把这个干扰因素排除掉才行,因此就有了修正判定系数:

其中p代表变量个数。

这样计算出来的值才是精确的,我们以后就用这个修正判定系数。

问题:

然鹅,如果这个修正判定系数的值接近0说明什么呢?说明所有自变量都跟因变量不沾边吗?

俗话说的好,凡事不能一棒子打死。

可能是因为一只害群之马,导致整个系数被拉低。这种情况肯定是有的,而且占大多数。

然鹅,这只害群之马怎么找呢?

请继续往下看。

显著性检验

在一元线性回归中,线性关系的假设检验比较简单,我们用了F检验。

比如以某饭馆的月营业额(Y)与店铺面积(X)的关系来看,如果二者有显著关系,那么检验量F就会落在拒绝域内,则拒绝原假设H0。

有就有,没有就没有,一元的世界还是比较单纯的。

然鹅在多元线性回归中,我们则需要一个自变量一个自变量的来捋,看每个自变量对因变量的影响是否显著。

如果某个自变量没有通过检验,这就说明这个自变量对因变量的影响不显著,既然不显著,那也没必要将这个自变量放在回归模型中了,这也就是上面所说的寻找害群之马的途径了。

那咱们就玩一个吧。

第一步:提出假设。

第二步:计算t统计量。

注意哦,这里的统计量不是F,而是t咯。

分子就是回归系数减去原假设系数,分母表示回归系数的标准差,这个有点复杂,我们把这个公式写全了:

其中,表示逆矩阵主对角线上的第k行第k列的元素。

第三步:做出决策。

给定显著性水平α,根据自由度n-p-1查t分布表。

若|t|>t(α/2),则拒绝原假设,说明对因变量影响显著,非害群之马。

第四步:重复1-3步骤,直到检验完所有系数。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180702G19WN300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券