前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >北大@Coursera 医学统计学与SPSS软件 第六周 直线回归与相关

北大@Coursera 医学统计学与SPSS软件 第六周 直线回归与相关

作者头像
统计学家
发布2019-04-10 17:06:03
1.4K0
发布2019-04-10 17:06:03
举报
文章被收录于专栏:机器学习与统计学

直线回归

  • 直线回归的概念

直线回归(linear regression)用直线方程表达 X和Y 之间的数量依存关系。X常作为自变量(independent variable),Y 常作为因变量(dependent variable)。

  • 直线回归方程的估计
  • 直线回归方程的一般表达式Yhat= a +bX

Y ˆ :是实测值Y的预测值(predicted value),是直线上点的纵坐标。

  1. a和b的意义

a:是回归直线在Y轴上的截距,即X=0时Y的预测值。

b:是回归直线的斜率,又称为回归系数。b>0表示Y 随X增大而增大;b<0表示Y随X增大而减小;b=0表示X与Y无直线关系。

  1. b和a的估计 最小二乘法(the method ofleast squares, LS):各实测点到直线的纵向距离的平方和最小。

剩余或残差( residuals ):剩余平方和或残差平方和(sum of squared residuals)

  • 回归系数的假设检验

b为样本回归系数,要判断直线回归方程是否成立,需要检验总体回归系数b是否为0。

其检验假设为:

H0: b=0,即X、Y之间无直线关系

H1:b¹0,即X、Y之间有直线关系

只有当b¹0时,才能认为直线回归方程成立(具有统计学意义)。

方法一:方差分析 SS总,为Y的离均差平方和,又称总平方和。

SS回,为回归平方和,它反映在总平方和中可以用X 解释的部分。

SS剩,为剩余平方和,它反映在总平方和中无法用X 解释的部分。

SS总=SS回 + SS剩,

二、直线回归的适用条件(LINE)

1.线性 Y与X之间是线性关系。(L)

2.独立性 所有的观测值是相互独立的。(I)

3.正态性 Y服从正态分布。(N)

4.方差齐性 对于所有自变量取值,Y总体方差相等。(E)

三、应用直线回归应注意的问题

1.作回归分析要有实际意义。不能把毫无关联的 两种现象作回归分析;此外,即便有回归关系也 不一定是因果关系。

2.只能在建立回归方程时自变量取值范围内预测 因变量,不能任意外延。

3.在进行直线回归分析之前,应绘制散点图。

直线相关

一、直线相关的概念直线相关(linear correlation)用于描述具有直线关系的两个变之间的相互关系。r:相关系数,correlation coefficient,又称 为积差相关系数或Pearson相关系数 。 r用来衡 量有直线关系的两个变量之间相关的密切程度和 方向。r没有单位,-1£r£1。

二、相关系数的估计

三、相关系数的假设检验

r为样本相关系数,要判断两变量之间是否存在 相关性,需要检验总体相关系数r是否为0。

H0:r=0,即X、Y之间无直线相关关系 H1:r¹0,即X、Y之间有直线相关关系

统计量t为:

式中sr为样本相关系数的标准误。

注:只有当r¹0时,才能根据|r|的大小判断相关 的密切程度。

四、直线相关的适用条件 1.独立性所有的观测值是相互独立的。 2.正态性两个变量X、Y服从双变量正态分布 (bivariate normal distribution)。

区别

1.意义不同 相关表达两个变量之间相互关系 的密切程度和方向。回归表达两个变量之间的 数量依存关系,已知X值可以预测Y值。

2.资料要求不同 在资料要求上,回归要求因 变量Y服从正态分布;X是可以精确测量和严格 控制的变量,一般称为Ⅰ型回归。相关要求两 个变量X、Y服从双变量正态分布。这种资料若 进行回归分析则称为Ⅱ型回归。

联系

1.r与b的符号一致,同正同负

2.r与b的假设检验等价

3. 可以用回归解释相关

r 2称为决定系数(coefficient ofdetermination)决定系数反映了回归平方和占总平方和的比例,其越接近于1,回归直线拟和的效果越好。

秩相关

一、秩相关的概念

又称为等级相关。主要适用于:

1.不服从双变量正态分布而不宜作直线相关分析。

2.原始数据是用等级表示。

3.总体分布类型未知的双变量资料。

Spearman等级相关是基于秩次的非参数相关分析。 类似前述的直线相关。样本等级相关系数用rs 表示,总体等级相关系数用ρs 表示。 rs界于-1与1 之间。 rs >0称为正相关,等级相关系数绝对值越接近1,说明相关程度越密切。

二、Spearman等级相关系数的估计

三、Spearman等级相关系数的假设检验

欢迎关注

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2015-04-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档