前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据分析之自动线性建模

数据分析之自动线性建模

作者头像
黄成甲
发布2018-09-12 15:06:41
1.2K0
发布2018-09-12 15:06:41
举报
文章被收录于专栏:黄成甲黄成甲

自动线性建模的特点主要有:

(1)连续变量、分类变量均可作为自变量参与建模;

(2)能自动寻找对因变量重要性最大的自变量,舍弃重要性很小或不重要的自变量;

(3)自动进行离群值和缺失值等处理,并输出一系列图表来展示回归模型的效果及相关信息;

文/黄成甲

模型评价

一般模型建立后,需要从统计学方法论的角度来评价模型建立的效果,如果有多组变量组合就可能建立多组模型,那么久需要得知其中哪些模型效果较好,需要保留,哪些模型效果较差,需要淘汰掉。

评价标准之一就是信息条件,也称为信息准则。在SPSS所有的统计过程中,常见的信息准则有AIC(赤池信息量准则)、BIC(贝叶斯信息量准则)两种,而AICC准则是为了适应小样本数据,在AIC准则准则公式的基础上进行调整修正,适用于任何样本量,AIC准则只适用于大样本数据,所以AICC准则更为通用。信息准则的数值越小表示模型越好,但没有绝对的数值大小标准,只需要通过不同模型的信息准则进行对比选择较优的即可。

模型摘要

模型摘要图用进度条来展现模型拟合的效果。它类似于普通线性回归中的R平方(决定系数),一般模型准确度大于70%就算拟合的不错,60%以下就需要修正模型,可以通过增加或删除一些自变量后再次建模进行修正,本例中模型准确度达到了94.8%,效果不错。

预测-实测散点图

预测-实测散点图用于考察预测效果,如果效果较好,数据点应该是在一条45度线上分布的。

残差图

残差是指实际值与预测值之间的差,残差图用于回归诊断,也就是用来判断当前模型是否满足回归模型的假设:回归模型在理想条件下的残差图是服从正态分布的,也就是说,图中的残差直方图和正态分布曲线是一致的。

离群值

库克距离越大的个案对回归拟合影响的程度越大,此类个案可能会导致模型准确度下降。

回归效果图

回归效果图用于展示及比较各个自变量对因变量的重要性。每个显著的连续变量均会作为一个模型项,并对应一条线条,如果有显著的分类变量纳入模型,那么模型将分类变量的每一种显著的类别分布作为模型项,并分布对应一条线条。

线条上下顺序是按照自变量的重要性大小降序排列的,由此可以判断各个自变量的重要性。线条粗细则表示显著性水平,显著性水平越高其线条越粗。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.08.31 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档