前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【R语言进行数据挖掘】回归分析

【R语言进行数据挖掘】回归分析

作者头像
统计学家
发布2019-04-10 10:23:18
1.1K0
发布2019-04-10 10:23:18
举报

1、线性回归

线性回归就是使用下面的预测函数预测未来观测量:

其中,x1,x2,...,xk都是预测变量(影响预测的因素),y是需要预测的目标变量(被预测变量)。

线性回归模型的数据来源于澳大利亚的CPI数据,选取的是2008年到2011年的季度数据。

代码语言:javascript
复制
# rep函数里面的第一个参数是向量的起始时间,从2008-2010,第二个参数表示向量里面的每个元素都被4个小时间段。
代码语言:javascript
复制
> year <- rep(2008:2010, each=4)
代码语言:javascript
复制
> quarter <- rep(1:4, 3)
代码语言:javascript
复制
> cpi <- c(162.2, 164.6, 166.5, 166.0,
代码语言:javascript
复制
+ 166.2, 167.0, 168.6, 169.5,
代码语言:javascript
复制
+ 171.0, 172.1, 173.3, 174.0)
代码语言:javascript
复制
# plot函数中axat=“n”表示横坐标刻度的标注是没有的
代码语言:javascript
复制
> plot(cpi, xaxt="n", ylab="CPI", xlab="")
代码语言:javascript
复制
# 绘制横坐标轴
代码语言:javascript
复制
> axis(1, labels=paste(year,quarter,sep="Q"), at=1:12, las=3)

接下来,观察CPI与其他变量例如‘year(年份)’和‘quarter(季度)’之间的相关关系。

代码语言:javascript
复制
> cor(year,cpi)
代码语言:javascript
复制
> cor(quarter,cpi)

输出如下:

> cor(quarter,cpi)

[1] 0.3738028

> cor(year,cpi)

[1] 0.9096316

> cor(quarter,cpi)

[1] 0.3738028

由上图可知,CPI与年度之间的关系是正相关,并且非常紧密,相关系数接近1;而它与季度之间的相关系数大约为0.37,只是有着微弱的正相关,关系并不明显。

然后使用lm()函数建立一个线性回归模型,其中年份和季度为预测因素,CPI为预测目标。

代码语言:javascript
复制
# 建立模型fit
代码语言:javascript
复制
> fit <- lm(cpi ~ year + quarter)
代码语言:javascript
复制
> fit

输出结果如下:

Call:

lm(formula = cpi ~ year + quarter)

Coefficients:

(Intercept) year quarter

-7644.488 3.888 1.167

由上面的输出结果可以建立以下模型公式计算CPI:

其中,c0、c1和c2都是模型fit的参数分别是-7644.488、3.888和1.167。因此2011年的CPI可以通过以下方式计算:

代码语言:javascript
复制
> (cpi2011 <-fit$coefficients[[1]] + fit$coefficients[[2]]*2011 +
代码语言:javascript
复制
+ fit$coefficients[[3]]*(1:4))

输出的2011年的季度CPI数据分别是174.4417、175.6083、176.7750和177.9417。

模型的具体参数可以通过以下代码查看:

代码语言:javascript
复制
# 查看模型的属性
代码语言:javascript
复制
> attributes(fit)
代码语言:javascript
复制
$names
代码语言:javascript
复制
 [1] "coefficients"  "residuals"     "effects"       "rank"          "fitted.values"
代码语言:javascript
复制
 [6] "assign"        "qr"            "df.residual"   "xlevels"       "call"         
代码语言:javascript
复制
[11] "terms"         "model"        
代码语言:javascript
复制
$class
代码语言:javascript
复制
[1] "lm"
代码语言:javascript
复制
# 模型的参数
代码语言:javascript
复制
> fit$coefficients
代码语言:javascript
复制
# 观测值与拟合的线性模型之间的误差,也称为残差
代码语言:javascript
复制
> residuals(fit)
代码语言:javascript
复制
          1           2           3           4           5           6           7 
代码语言:javascript
复制
-0.57916667  0.65416667  1.38750000 -0.27916667 -0.46666667 -0.83333333 -0.40000000 
代码语言:javascript
复制
          8           9          10          11          12 
代码语言:javascript
复制
-0.66666667  0.44583333  0.37916667  0.41250000 -0.05416667

除了将数据代入建立的预测模型公式中,还可以通过使用predict()预测未来的值。

代码语言:javascript
复制
# 输入预测时间
代码语言:javascript
复制
> data2011 <- data.frame(year=2011, quarter=1:4)
代码语言:javascript
复制
> cpi2011 <- predict(fit, newdata=data2011)
代码语言:javascript
复制
# 设置散点图上的观测值和预测值对应点的风格(颜色和形状)
代码语言:javascript
复制
> style <- c(rep(1,12), rep(2,4))
代码语言:javascript
复制
> plot(c(cpi, cpi2011), xaxt="n", ylab="CPI", xlab="", pch=style, col=style)
代码语言:javascript
复制
# 标签中sep参数设置年份与季度之间的间隔
代码语言:javascript
复制
> axis(1, at=1:16, las=3,
代码语言:javascript
复制
+ labels=c(paste(year,quarter,sep="Q"), "2011Q1", "2011Q2", "2011Q3", "2011Q4"))

预测结果如下:

上图中红色的三角形就是预测值。

2、Logistic回归

Logistic回归是通过将数据拟合到一条线上并根据简历的曲线模型预测事件发生的概率。可以通过以下等式来建立一个Logistic回归模型:

其中,x1,x2,...,xk是预测因素,y是预测目标。令

,上面的等式被转换成:

使用函数glm()并设置响应变量(被解释变量)服从二项分布(family='binomial,'link='logit')建立Logistic回归模型,更多关于Logistic回归模型的内容可以通过以下链接查阅:

· R Data Analysis Examples - Logit Regression

· 《LogisticRegression (with R)》

3、广义线性模型

广义线性模型(generalizedlinear model, GLM)是简单最小二乘回归(OLS)的扩展,响应变量(即模型的因变量)可以是正整数或分类数据,其分布为某指数分布族。其次响应变量期望值的函数(连接函数)与预测变量之间的关系为线性关系。因此在进行GLM建模时,需要指定分布类型和连接函数。这个建立模型的分布参数包括binomaial(两项分布)、gaussian(正态分布)、gamma(伽马分布)、poisson(泊松分布)等。

广义线性模型可以通过glm()函数建立,使用的数据是包‘TH.data’自带的bodyfat数据集。

代码语言:javascript
复制
> data("bodyfat", package="TH.data")
代码语言:javascript
复制
> myFormula <- DEXfat ~ age + waistcirc + hipcirc + elbowbreadth + kneebreadth
代码语言:javascript
复制
# 设置响应变量服从正态分布,对应的连接函数服从对数分布
代码语言:javascript
复制
> bodyfat.glm <- glm(myFormula, family = gaussian("log"), data = bodyfat)
代码语言:javascript
复制
# 预测类型为响应变量
代码语言:javascript
复制
> pred <- predict(bodyfat.glm, type="response")
代码语言:javascript
复制
> plot(bodyfat$DEXfat, pred, xlab="Observed Values", ylab="Predicted Values")
代码语言:javascript
复制
> abline(a=0, b=1)

预测结果检验如下图所示:

由上图可知,模型虽然也有离群点,但是大部分的数据都是落在直线上或者附近的,也就说明模型建立的比较好,能较好的拟合数据。

4、非线性回归

如果说线性模型是拟合拟合一条最靠近数据点的直线,那么非线性模型就是通过数据拟合一条曲线。在R中可以使用函数nls()建立一个非线性回归模型,具体的使用方法可以通过输入'?nls()'查看该函数的文档。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-10-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 2、Logistic回归
  • 3、广义线性模型
  • 4、非线性回归
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档