专栏首页机器学习与统计学R in action读书笔记(8)-第八章:回归

R in action读书笔记(8)-第八章:回归

8.1回归的多面性

8.2 OLS回归

OLS回归拟合模型形式:

为了能够恰当地解释oLs模型的系数,数据必须满足以下统计假设。

口正态性对于固定的自变量值,因变量值成正态分布。

口独立性Yi值之间相互独立。

口线性因变量与自变量之间为线性相关。

口同方差性因变量的方差不随自变量的水平不同而变化。也可称作不变方差,但是说同方差性感觉上更犀利。

8.2.1用lm()拟合回归模型

myfit<-lm(formula,data)

formula指要拟合的模型形式,data是一个数据框,包含了用于拟合模型的数据。

表达式(formula):Y~X1+X2+…+Xk

8.2.2简单线性回归

> fit<-lm(weight~height,data=women)

> summary(fit)

Call:

lm(formula = weight ~height, data = women)

Residuals:

Min 1Q Median 3Q Max

-1.7333 -1.1333-0.3833 0.7417 3.1167

Coefficients:

Estimate Std. Error t valuePr(>|t|)

(Intercept)-87.51667 5.93694 -14.74 1.71e-09 ***

height 3.45000 0.09114 37.85 1.09e-14 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’1

Residual standarderror: 1.525 on 13 degrees of freedom

MultipleR-squared: 0.991, Adjusted R-squared: 0.9903

F-statistic: 1433 on 1 and 13 DF, p-value: 1.091e-14

> plot(women$height,women$weight,xlab="h",ylab="w")

> abline(fit)

8.2.3多项式回归

> plot(women$height,women$weight,xlab="h",ylab="w")

> abline(fit)

> fit2<-lm(weight~height+I(height^2),data=women)

> plot(women$height,women$weight,xlab="height(ininches)",ylab="weight (in lbs)")

> lines(women$height,fitted(fit2))

8.2.4多元线性回归

> library(car)

> states<-as.data.frame(state.x77[,c("Murder","Population","Illiteracy","Income","Frost")])

> cor(states)

Murder PopulationIlliteracy Income

Murder 1.0000000 0.3436428 0.7029752 -0.2300776

Population 0.3436428 1.0000000 0.1076224 0.2082276

Illiteracy 0.7029752 0.1076224 1.0000000 -0.4370752

Income -0.2300776 0.2082276 -0.4370752 1.0000000

Frost -0.5388834 -0.3321525 -0.6719470 0.2262822

Frost

Murder -0.5388834

Population -0.3321525

Illiteracy -0.6719470

Income 0.2262822

Frost 1.0000000

> scatterplotMatrix(states,spread=FALSE,lty.smooth=2,main="spm")

8.2.5有交互项的多元线性回归

> fit<-lm(mpg~hp+wt+hp:wt,data=mtcars)

> summary(fit)

Call:

lm(formula = mpg ~ hp +wt + hp:wt, data = mtcars)

Residuals:

Min 1Q Median 3Q Max

-3.0632 -1.6491-0.7362 1.4211 4.5513

Coefficients:

Estimate Std. Error t valuePr(>|t|)

(Intercept)49.80842 3.60516 13.816 5.01e-14 ***

hp -0.12010 0.02470 -4.863 4.04e-05 ***

wt -8.21662 1.26971 -6.471 5.20e-07 ***

hp:wt 0.02785 0.00742 3.753 0.000811 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’1

Residual standarderror: 2.153 on 28 degrees of freedom

MultipleR-squared: 0.8848, Adjusted R-squared: 0.8724

F-statistic: 71.66 on 3and 28 DF, p-value: 2.981e-13

Effects包中的effect()函数,可以用图形展示交互项的结果

Plot(effect(term,mod,xlevels),multiline=TRUE)

term即模型要画的项,mod为通过lm ( )拟合的模型,xlevels是一个列表,指定变量要设定的常量值,multiline=TRUE选项表示添加相应直线。

欢迎关注:

本文分享自微信公众号 - 机器学习与统计学(tjxj666)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-04-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • R语言教程之-线性回归

    回归分析是一种非常广泛使用的统计工具,用于建立两个变量之间的关系模型。 这些变量之一称为预测变量,其值通过实验收集。 另一个变量称为响应变量,其值从预测变量派生...

    统计学家
  • 用 Python 手写十大经典排序算法

    来源:https://github.com/hustcc/JS-Sorting-Algorithm

    统计学家
  • 来!一起捋一捋机器学习分类算法

    可是,你能够如数家珍地说出所有常用的分类算法,以及他们的特征、优缺点吗?比如说,你可以快速地回答下面的问题么:

    统计学家
  • jQuery插件编写步骤详解

    本文实例讲述了jQuery插件编写步骤。分享给大家供大家参考,具体如下: 如今做web开发,jquery 几乎是必不可少的,就连vs神器在2010版本开始将Jq...

    前朝楚水
  • 网络安全究竟是什么?

    “网络安全”是指任何活动旨在保护您的网络和数据的可用性和完整性。它包括硬件和软件技术。有效的网络安全管理对网络的访问。它针对的是一种不同的威胁,阻止他们进入或在...

    周俊辉
  • 币聪-争分夺秒DeepBrain Chain成功推出AI培训网络,下半年主网将进一步完善AI testnet

    2018年8月8日,雄心勃勃的DeepBrain Chain项目启动了AI培训网络,实现了为人工智能计算能力和算法创建完全分散的市场的重要里程碑。

    币聪财经
  • IDEA 导入项目后找不到右侧的Maven

    有时候在导入项目的时候如果有些奇葩项目没有在根目录下建pom的时候,idea就不会标识其为maven项目,并右侧不会显示出maven相关的标签。

    用户2353021
  • 挑战程序竞赛系列(48):4.2 推理与动态规划算法(1)

    版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.n...

    用户1147447
  • h3c交换机gvrp

    GARP提供了一种机制,用于协助同一个局域网内的交换成员之间分发、传播和注 册某种信息(如VLAN、组播地址等)。GARP本身不作为一个实体存在于设备中,遵循G...

    py3study
  • CSS布局那点事儿

    布局 最开始老的一代网站开发,布局都是通过表格实现的。 这样可以形成规整的网格布局,但是也会带来一定的复杂性。比如想要新增某个页面元素,就有可能要改动整个表格...

    用户1154259

扫码关注云+社区

领取腾讯云代金券