首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言广义线性模型(GLM)、全子集回归模型选择、检验分析全国风向气候数据

全文链接:http://tecdat.cn/?p=30914

采样时间:2021年1月1号~2021年12月31号

采样地点:全国各地。

本次调查搜集了2021年全国不同地区的风向、降雨量、风速、风速变化、最大风速、最大降雨量、闪电概率等数据。并对不同变量之间的相关性进行了调查,对国家数据预测的错误率进行了GLM模型拟合。

读取数据

读取因变量

相关视频

相关分析

调查的出的各指标数据用R软件进行处理并且用箱图进行对比显示。

部分指标的箱线图

查看各变量之间的相关系数

有显著的相关关系。从变量相关关系图和矩阵,可以看到temperatureMin和temperatureMax,windChillMin,windChillMax,以及gustSpeed和windSpeed之间,rainfall和changeInRainfall,以及lightningRisk和lightningCategory之间都有教明显的线性相关关系。yearDay和windChill之间也有一定的相关关系。

glm 线性回归模型

检验是否存在多重共线性问题

判断多重共线性变量

进一步模型优化

从模型中变量的VIF值来看,大多数变量之间不存在较强的多重共线性关系。从残差拟合图来看,大部分样本拟合值分布在0周围,说明拟合结果较理想。981,2331和524号样本可能为异常点。从正态分布qq图来看,大部分点分布在图中直线附近。说明样本点服从正态分布。同样,拟合值的标准残差也分布在红线周围,说明拟合效果较好。同样,大部分样本的cook’ distance距离在正常范围内,392,624,622号样本的cook’ distance较大,可能会对模型产生较大的影响。

全子集回归来选出最优的模型

全子集回归,即基于全模型获得可能的模型子集,并根据AIC值等对子集排序以从中获取最优子集。

重新拟合模型

优化模型

残差图

计算R-squre值,查看模型拟合情况

从逻辑回归结果来看,模型中部分自变量对因变量的影响较为明显,达到了0.01的显著性水平,具有一定的理论意义。然而从AIC的值来看,达到了4024.881,数值较大,说明模型的拟合度较差,有进一步改进的空间。一般认为计算条件数kappa(X),k

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20221215A05I2V00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券