试图理解当预测和事实之间的相关因子(以及线性回归中的斜率)为正时,r平方(也解释了方差)指标如何为负(从而表明不存在预测能力)。
发布于 2020-08-08 12:21:44
在罕见的情况下,R平方可以为负值。
R平方=1- (SSR/SST)
这里,SST代表Sum of Squared Total,除了预测点与目标变量的平均值有多大不同之外,什么也不是。Mean在这里只是一条回归线。
Sum =(平方(每个数据点-目标变量的平均值))
例如,
如果我们想要建立一个回归模型,以体重为自变量来预测学生的身高,那么一种不需要太多努力的预测方法就是计算所有在校学生的平均身高,并将其作为预测。

在上图中,红线是回归线,它只不过是所有高度的平均值。这个平均值的计算不需要太多的努力,可以被认为是最差的预测方法之一,精度很低。在图表本身中,我们可以看到预测与原始数据点相去甚远。现在来看看SSR,
SSR代表残差平方和。这个残差是通过我们的数学方法(线性回归、贝叶斯回归、多项式回归或任何其他方法)建立的模型计算出来的。如果我们使用复杂的方法,而不是使用mean这样的幼稚方法,那么我们的准确率将明显提高。
Sum SSR=(平方(每个数据点-回归线中每个对应的数据点))

在上图中,让我们考虑蓝线表示具有大量数学分析的复杂模型。我们可以看到,它的准确率明显高于红线。
现在来看公式,
R平方= 1- (SSR/SST)
这里,
<代码>F221
这是一种通用的情况,但它不能应用于许多存在多个自变量的情况。在本例中,我们只有一个自变量和一个目标变量,但在实际情况中,一个因变量将有100个自变量。实际的问题是,在100个自变量中-
一些变量与目标变量有很高的相关性,variable.
因此,RSquared是在假设目标的平均直线是y轴的垂直线是模型在最大风险情况下的最差拟合的基础上计算的。SST是这条平均线和原始数据点之间的平方差。同样,SSR是预测数据点(通过模型平面)和原始数据点之间的平方差。
如果你的模型可以在某种程度上建造一架相对最好的飞机,那么在99%的情况下SSR
如果是呢? SSR>SST呢?这意味着您的回归平面比平均值(SST)更差。在这种情况下,R的平方显然是负的。但只有1%或更少的病例会发生这种情况。
答案最初是由我用quora写的-
https://stackoverflow.com/questions/62861860
复制相似问题