首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >当预测和事实之间的相关性是正的时候,r平方怎么会是负的呢?

当预测和事实之间的相关性是正的时候,r平方怎么会是负的呢?
EN

Stack Overflow用户
提问于 2020-07-12 21:47:28
回答 1查看 603关注 0票数 0

试图理解当预测和事实之间的相关因子(以及线性回归中的斜率)为正时,r平方(也解释了方差)指标如何为负(从而表明不存在预测能力)。

EN

回答 1

Stack Overflow用户

发布于 2020-08-08 12:21:44

在罕见的情况下,R平方可以为负值。

R平方=1- (SSR/SST)

这里,SST代表Sum of Squared Total,除了预测点与目标变量的平均值有多大不同之外,什么也不是。Mean在这里只是一条回归线。

Sum =(平方(每个数据点-目标变量的平均值))

例如,

如果我们想要建立一个回归模型,以体重为自变量来预测学生的身高,那么一种不需要太多努力的预测方法就是计算所有在校学生的平均身高,并将其作为预测。

在上图中,红线是回归线,它只不过是所有高度的平均值。这个平均值的计算不需要太多的努力,可以被认为是最差的预测方法之一,精度很低。在图表本身中,我们可以看到预测与原始数据点相去甚远。现在来看看SSR,

SSR代表残差平方和。这个残差是通过我们的数学方法(线性回归、贝叶斯回归、多项式回归或任何其他方法)建立的模型计算出来的。如果我们使用复杂的方法,而不是使用mean这样的幼稚方法,那么我们的准确率将明显提高。

Sum SSR=(平方(每个数据点-回归线中每个对应的数据点))

在上图中,让我们考虑蓝线表示具有大量数学分析的复杂模型。我们可以看到,它的准确率明显高于红线。

现在来看公式,

R平方= 1- (SSR/SST)

这里,

  • SST将是一个大数字,因为它是一个非常差的模型(红线)。
  • SSR将是一个小数字,因为它是我们经过大量数学分析后开发的最佳模型(蓝线)。
  • 因此,SSR/SST将是一个非常小的数字(每当SSR decreases).
  • So,1- (SSR/SST)将是大数字时,它将变得非常小。
  • 因此,我们可以推断,当R平方变得更高时,意味着模型太好了。

<代码>F221

这是一种通用的情况,但它不能应用于许多存在多个自变量的情况。在本例中,我们只有一个自变量和一个目标变量,但在实际情况中,一个因变量将有100个自变量。实际的问题是,在100个自变量中-

一些变量与目标变量有很高的相关性,variable.

  • Some变量与目标variable.

  • Also的相关性很小,一些自变量则完全没有相关性。

因此,RSquared是在假设目标的平均直线是y轴的垂直线是模型在最大风险情况下的最差拟合的基础上计算的。SST是这条平均线和原始数据点之间的平方差。同样,SSR是预测数据点(通过模型平面)和原始数据点之间的平方差。

如果你的模型可以在某种程度上建造一架相对最好的飞机,那么在99%的情况下SSR

如果是呢? SSR>SST呢?这意味着您的回归平面比平均值(SST)更差。在这种情况下,R的平方显然是负的。但只有1%或更少的病例会发生这种情况。

答案最初是由我用quora写的-

  1. https://qr.ae/pNsLU8
  2. https://qr.ae/pNsLUr
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62861860

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档