首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在大型数据集上,R2评分是否是一种合理的回归度量?

在大型数据集上,R2评分是否是一种合理的回归度量?
EN

Data Science用户
提问于 2018-02-20 17:30:55
回答 3查看 1.7K关注 0票数 3

我在一个相当大的数据集上运行一个回归模型,得到了一个相当糟糕的$R^2$评分为0.2(参见下面的图),尽管该模型看起来像是指向正确的方向。

我的问题是,当你有超过一百万个数据点时,你能现实地期望$R^2$在真实世界的数据中有相当大的噪音吗?

对这些传统措施的怀疑促使了诸如这样的文章,这些文章讨论了数据的数量如何降低统计测试的质量。

让我知道你的想法和任何使用$R^2$评分作为质量标准的回归例子。

EN

回答 3

Data Science用户

回答已采纳

发布于 2018-02-20 22:11:29

确定系数$r^2$是用方差来定义的:自变量解释的是因变量中方差的比例。方差是正态分布数据的一种属性。因此,只有假设因变量和自变量都是正态分布时,才能使用决定系数。

就像普通分布式数据的其他属性一样,随着数据量的增加,$r^2$的估计也得到了提高。由于数据很少,巧合的情况可能是这样的,但是对于大量的数据来说,这是不可能的。

回到你的例子。您的数据是cleary非正态分布的,它有右偏且有较大的异常值。因此,不宜使用$r^2$。例如,假设在左下角(大部分数据都是这样),您会观察到一个负趋势,但在一般情况下有一个积极的趋势。回归线将相同,$r^2$将在相同的范围内。这就是所谓的辛普森悖论

简而言之,如果您的数据是正态分布的,则可以对任意大小的数据集使用$r^2$。如果它不是正态分布的,则不能使用$r^2$。

票数 4
EN

Data Science用户

发布于 2018-02-20 19:14:31

对于$R^2$分数的期望,没有一个普遍的答案。对于一个拥有这个$R^2$分数的模型是否是一个“好的”模型,没有一个普遍的答案。在许多情况下,(1)这种$R^2$评分并非不合理,(2)该模型仍然有效。从这些数据来看,$R^2=0.243$感觉是对的,大部分数据集中在一个接近原点的类似磁盘的blob中。

您链接到的这篇文章涉及的是统计信心,这与$R^2$是一个非常不同的问题。我猜想,考虑到数据量,尽管你认为$R^2$分数很低,p值还是很高的。本文涉及p- many,这是一个问题,如果您考虑到许多可能的投入与竞争的模型。只有一个$x$,就像这里一样,如果这是您构建的唯一模型,这是合理的。

票数 1
EN

Data Science用户

发布于 2018-02-20 21:27:01

我认为保罗的回答很好。关于$R^2$评分,我还想说的一点是,您应该只比较不同的$R^2$分数在同一组数据上估计的模型之间的差异。从概念上讲,比较来自不同数据的模型之间的$R^2$分数是没有任何意义的,因为$R^2$本身只是模型解释的结果的一种方差度量。不同的数据集会有不同的差异,可以解释。

这就是为什么很难定义“好的”$R^2$分数的一个主要原因。$R^2$评分当然取决于您的模型是否合适,但也取决于数据本身(而且数据集取决于它的集合以及从中提取数据的域)。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/28056

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档