前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >相关系数r和决定系数R2的那些事

相关系数r和决定系数R2的那些事

作者头像
卡尔曼和玻尔兹曼谁曼
修改2019-02-06 07:09:45
38.3K3
修改2019-02-06 07:09:45
举报
文章被收录于专栏:给永远比拿愉快

相关系数r和决定系数R^2的那些事

有人说相关系数(correlation coefficient,r)和决定系数(coefficient of determination,R^2,读作R-Squared)都是评价两个变量相关性的指标,且相关系数的平方就是决定系数?这种说法对不对呢?请听下文分解!

协方差与相关系数

要说相关系数,我们先来聊聊协方差。在之前的博文《使用Python计算方差协方差相关系数》中提到协方差是计算两个随机变量XY 之间的相关性的指标,定义如下:

\mathrm{Cov}(X, Y) = \mathrm{E}[(X - \mathrm{E}X)(Y - \mathrm{E}Y)]

但是协方差有一个确定:它的值会随着变量量纲的变化而变化(covariance is not scale invariant),所以,这才提出了相关系数的概念:

r = \mathrm{Corr}(X, Y) = \frac{Cov(X, Y)}{\sigma_X \cdot \sigma_Y} = \frac{\mathrm{E}[(X - \mathrm{E}X)(Y - \mathrm{E}Y)]}{\sqrt{\mathrm{E}[X - \mathrm{E}X]^2}\sqrt{\mathrm{E}[Y - \mathrm{E}Y]^2}}

对于相关系数,我们需要注意:

  1. 相关系数是用于描述两个变量线性相关程度的,如果r \gt 0,呈正相关;如果r = 0,不相关;如果r \lt 0,呈负相关。
  2. 如果我们将X - \mathrm{E}XY - \mathrm{E}Y看成两个向量的话,那r刚好表示的是这两个向量夹角的余弦值,这也就解释了为什么r的值域是-1, 1。
  3. 相关系数对变量的平移和缩放(线性变换)保持不变(Correlation is invariant to scaling and shift,不知道中文该如何准确表达,😅)。比如\\mathrm{Corr}(X, Y) = \mathrm{Corr}(aX + b, Y)成立。

决定系数(R方)

下面来说决定系数,R方一般用在回归模型用用于评估预测值和实际值的符合程度,R方的定义如下:

R^2 = 1 - \mathrm{FVU} = 1 - \frac{\mathrm{RSS}}{\mathrm{TSS}} = 1 - \frac{\sum\limits_i(y_i - f_i)^2}{\sum\limits_i(y_i - \hat{y})^2}

上式中y是实际值,f是预测值,\hat{y}是实际值的平均值。\mathrm{FVU}被称为fraction of variance unexplained,RSS叫做Residual sum of squares,TSS叫做Total sum of squares。根据R^2的定义,可以看到R^2是有可能小于0的,所以R2不是r的平方。一般地,R^2越接近1,表示回归分析中自变量对因变量的解释越好。

对于$R^2$可以通俗地理解为使用均值作为误差基准,看预测误差是否大于或者小于均值基准误差。

此外,我们做这样一个变形:R^2 = 1 - \frac{\sum\limits_i(y_i - f_i)^2 / n}{\sum\limits_i(y_i - \hat{y})^2 / n} = 1 - \frac{\mathrm{RMSE}}{\mathrm{Var}},可以看到变成了1减去均方根误差和方差的比值(有利于编程实现)。

另外有一个叫做Explained sum of squares,\mathrm{ESS} = \sum\limits_i(f_i - \hat{y})^2

在一般地线性回归模型中,有\mathrm{ESS} + \mathrm{RSS} = \mathrm{TSS}(证明过程参见:Partitioning in the general ordinary least squares model

在这种情况下:我们有R^2 = 1 - \frac{\mathrm{RSS}}{\mathrm{TSS}} = \frac{\mathrm{ESS}}{\mathrm{TSS}} = \frac{\sum\limits_i(f_i - \hat{y})^2}{\sum\limits_i(y_i - \hat{y})^2}

对于R^2我们需要注意:

  1. R^2一般用在线性模型中(虽然非线性模型总也可以用),具体参见:Regression Analysis: How Do I Interpret R-squared and Assess the Goodness-of-Fit?
  2. R^2不能完全反映模型预测能力的高低

最后,这篇文章《8 Tips for Interpreting R-Squared》里面指出了不错误解读R^2的地方,读完之后,我觉得以后还是少用R^2,对于模型的评估可以选择其它一些更适合的指标。

参考资料

1. The relationship between correlation and the coefficient of determination

2. Coefficient of determination

3. Explained sum of squares

4. Regression Analysis: How Do I Interpret R-squared and Assess the Goodness-of-Fit?

5. 8 Tips for Interpreting R-Squared

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019年01月07日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 相关系数r和决定系数R^2的那些事
    • 协方差与相关系数
      • 决定系数(R方)
        • 参考资料
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档