首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

第51期 分析阶段 多元线性回归Multiple Regression(一)

封面图片源于网络

多元线性回归分析的基本流程和一元线性回归的步骤相同,建立回归方程后需要进行统计分析,了解模型的总效果是否显著及各个自变量的效应是否显著,之后在进行残差分析。回到多元线性回归的分析,则需要关注:模型与数据拟合的如何?模型是否还有改进的空间?如果在模型中的某个或某些自变量效应不显著,则我们是否需要删除该自变量?如在残差分析过程中发现残差与Y-hat的图形不正常(呈喇叭状或曲线),是否要对Y进行cox-box转换?如果在残差和X变量的图形异常,那么我们是否可以考虑增加自变量X的高阶项?如果我们修改了模型后,是否有改进?改进后的残差分析是否存在异常?如此往复分析直至正常为止。这些所有的分析步骤,如果我们之前对一元线性回归有了充分的认知,那么在进行多元线性分析的时候就不会觉得困难了。为了让大家便于理解和学习,接下来还是以示例结合Minitab统计软件进行介绍。

例子:某手机厂研究如何提高线路板焊接过程的拉拔力问题。根据过程经验,拉拔力与烘烤温度、烘烤时间和涂抹的焊膏量有关,现从过程中收集了20批数据。如下图:

因该例子中我们有三个自变量,故我们认为属于多元线性回归的问题。首先,我们要看一下每一个自变量和因变量的散点图,从图形上可以提示我们哪些自变量是相关的。选择“图形”-“矩阵图”-“每个Y和每个X”显示如下图形:

从图形是可以初步看出,似乎时间和“拉拔力”的相关性不大。

选择指令:“统计”—“回归”-“回归”,显示下图界面,输入相应的变量名,打开“图形”,选择“四合一”及在“残差与变量”中填入各自变量的名称;打开“存储”窗,选择“残差”及“拟合值”。显示如下图:

输出结果分析:

1. 首先看方差分析输出中的P值,该值小于0.05,说明该回归方程的效果是显著的;

2. R-sq=93.7%,说明模型还可以。已经能够解释93.7%的因变量了;

3. 各个回归系数的显著性检验。三个变量中“时间”因子的变量P值=0.44,效应不显著。这也在侧面印证了我们散点图的可视化结果,“时间”可能对模型的结果没有显著影响。方差分析结果中“时间”的平方和值为4.79,相较于其他自变量的平方和要小很多,也从另一个角度证明了“时间”因子的在模型中不显著,将应该被删除。

4. 最后要看一下残差是否正常。概率图和直方图显示了残差是否为正态分布,如果我们从图形上不确认是否正态,可以通过存储后的残差进行正态性的检验;残差与数据图形需要看图形是否有下降或上升或者摇摆的趋势,如果存在则说明还有一些自变量因子没有识别出来,本例中没有异常;残差与拟合值的图形则需要看是否成喇叭形或曲线。本例中没有异常;

通过以上分析,我们需要对回归方程进行修改,修改的内容就是删除“时间”的因变量。我们需要重新进行回归的计算。选择“统计”-“回归”“回归”,此次输入的变量只有“温度”和“锡膏量”,点击“确定”之后显示图形如下:

输出结果分析:

方差分析下回归方程显著性检验,P值小于0.05,故回归方程式显著的;

回归系数检验“温度”和“锡膏量”的P值也小于0.05,也说明两个因子均为显著因子;

拟合优度R-sq(调整)93.8%,可以解释93.8%的拉拔力。同时,我们可以看看S值,为1.13357,较之于删除“时间”之前的S值1.14688低,说明删除“时间”变量后,比之前的三个因子或变量要效果更好;

对于修正后的残差分析结果同之前的残差分析一样,均正常;

至此,我们通过多元的线性回归分析,找到了合理的回归方程如下:

拉拔力=10.0+0.247温度+4.44焊膏量

这样我们就可以为下一步进行指定的X,对Y进行预测了。

问题:在我们进行回归方程优劣判定的时候,主要看R-sq、R-sq(调整)及残差标准差S,那么如果我们发现三者之间的判定结果不一致又如何处理呢?

长按下图二维码或搜索“卓越六西格玛”关注个人微信公众号

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180220G0B5WL00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券