我在一个相当大的数据集上运行一个回归模型,得到了一个相当糟糕的$R^2$评分为0.2(参见下面的图),尽管该模型看起来像是指向正确的方向。
我的问题是,当你有超过一百万个数据点时,你能现实地期望$R^2$在真实世界的数据中有相当大的噪音吗?
对这些传统措施的怀疑促使了诸如这这样的文章,这些文章讨论了数据的数量如何降低统计测试的质量。
让我知道你的想法和任何使用$R^2$评分作为质量标准的回归例子。

发布于 2018-02-20 22:11:29
确定系数$r^2$是用方差来定义的:自变量解释的是因变量中方差的比例。方差是正态分布数据的一种属性。因此,只有假设因变量和自变量都是正态分布时,才能使用决定系数。
就像普通分布式数据的其他属性一样,随着数据量的增加,$r^2$的估计也得到了提高。由于数据很少,巧合的情况可能是这样的,但是对于大量的数据来说,这是不可能的。
回到你的例子。您的数据是cleary非正态分布的,它有右偏且有较大的异常值。因此,不宜使用$r^2$。例如,假设在左下角(大部分数据都是这样),您会观察到一个负趋势,但在一般情况下有一个积极的趋势。回归线将相同,$r^2$将在相同的范围内。这就是所谓的辛普森悖论。
简而言之,如果您的数据是正态分布的,则可以对任意大小的数据集使用$r^2$。如果它不是正态分布的,则不能使用$r^2$。
发布于 2018-02-20 19:14:31
对于$R^2$分数的期望,没有一个普遍的答案。对于一个拥有这个$R^2$分数的模型是否是一个“好的”模型,没有一个普遍的答案。在许多情况下,(1)这种$R^2$评分并非不合理,(2)该模型仍然有效。从这些数据来看,$R^2=0.243$感觉是对的,大部分数据集中在一个接近原点的类似磁盘的blob中。
您链接到的这篇文章涉及的是统计信心,这与$R^2$是一个非常不同的问题。我猜想,考虑到数据量,尽管你认为$R^2$分数很低,p值还是很高的。本文涉及p- many,这是一个问题,如果您考虑到许多可能的投入与竞争的模型。只有一个$x$,就像这里一样,如果这是您构建的唯一模型,这是合理的。
发布于 2018-02-20 21:27:01
我认为保罗的回答很好。关于$R^2$评分,我还想说的一点是,您应该只比较不同的$R^2$分数在同一组数据上估计的模型之间的差异。从概念上讲,比较来自不同数据的模型之间的$R^2$分数是没有任何意义的,因为$R^2$本身只是模型解释的结果的一种方差度量。不同的数据集会有不同的差异,可以解释。
这就是为什么很难定义“好的”$R^2$分数的一个主要原因。$R^2$评分当然取决于您的模型是否合适,但也取决于数据本身(而且数据集取决于它的集合以及从中提取数据的域)。
https://datascience.stackexchange.com/questions/28056
复制相似问题