多元线性回归之最优模型选择 by R 语言

变是永恒的真理

拨开数据的迷雾,坐上老师机的车,Let's go!

在many many实际问题中,因变量Y的自变量往往有很多。在这个时候,你可能为不知选择哪些自变量建模而困扰! 什么样的模型才是最优啦?在这里,我们讨论一种最简单但又普遍的模型,既多元线性回归的建模策略。

栗子:研究各个因素对企业牙膏销售量的影响,为便于理解,我们研究牙膏价格X1,投入的广告费用X2,对企业牙膏销售量的影响(数据如下)。

1. 首先我们进行简单的模型确定

设变量Y与变量X1,X2,.....,Xp间有线性关系

Y=B+B1X1+.......+BpXp+Z

输入数据(只列部分),调用函数:

yagao

我们可以看到,回归系数和回归方程的检验都是显著滴,我们理所应当的确定多元线性方程:

Y=4.4075+1.5883X1+0.5635X2

到这里,很多人可能感觉so easy,但是真的是这样吗?

2. 模型的进一步分析

我们画出X1~Y和X2~Y的散点图,从散点图看出,对X1~Y用直线模拟较好,而X2~Y,则用二次曲线拟合较好。

所以,下面我们对X2进行相应的回归分析:

我们发现,此时模型残差的标准误有所下降,相应系数的平方R2却有点上升,说明模型的修正是合理的,but,也出现了一个问题,对应的X2的P值>0.05。

下面我们尝试着去掉X2的一次项,再次进行分析。

此时,模型虽然通过了F检验和t检验,但是,与上个模型对比,模型残差的标准误上升,R2下降,模型还是不足,难道我们只能止步于此,用一开始的模型吗?当然不是!

再做进一步修正,我们是否考虑X1和X2的交互作用,接下来,请看:

此模型不仅通过了F检验和t检验,并且,模型残差的标准误减少(几个模型中最小),R2增加(几个模型中最大),所以,此时的模型才是最优滴。

Y=29.1133+11.1342X1-7.6080X2+0.6712X22-1.4777X1X2

因为奔豆芽微信群已满100+,欢迎大家扫码添加管理员微信,由管理员拉大家进微信群交流。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180321G0P42Q00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券