首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何解释残差中的线性趋势?

如何解释残差中的线性趋势?
EN

Data Science用户
提问于 2021-01-22 06:55:04
回答 2查看 149关注 0票数 3

我正试图比较同一行业的公司,看看利润和员工人数是如何相关的。我的线性回归看起来是这样的:

考虑到数据集的性质,该模型描述利润较低的办事处比利润较高的办事处更好。这是可以理解的,因为利润非常高的办公室的样本较少,利润较低的办公室有很多样本。

但是,当我检查残差时,会得到如下内容:

这些图表显示了利润较低的办公室的线性模式。我不知道如何解释这些趋势。

问题:残差的线性趋势表明了什么?如何调整模型以处理这些问题?

EN

回答 2

Data Science用户

回答已采纳

发布于 2021-01-23 18:22:19

当我在最上面的数字中正确地看到它时,你的数据中会有一些“聚集”,这意味着有许多公司的雇员人数是相同的(或非常相似的)。由于您似乎运行的回归只有一个自变量(右手边),这种聚束将在剩余可见。

你的模型是:

y_i = \beta_0 + \beta_1 x_i + u_i

现在假设\beta_0 = 1\beta_1 = 0.1,在y中使用“聚集”,您将得到如下内容:

代码语言:javascript
运行
复制
y     x      y_hat  u_hat
--------------------------
5     10     2      3
5     20     3      2
5     30     4      1
5     40     5      0

因此,考虑到数据中存在“聚束”,模型的线性性质将在残差中得到反映。

请注意,使用日志日志方法(这是完全可以的)将更改估计系数的自然解释。在日志日志中,您将将结果解释为“x中的1%更改将与y__中的\beta_1百分比更改相关联”(所有其他条件相同)。

由于emplyees的数量是有界的(没有负员工->“计数数据”),所以像泊松回归这样的东西值得一试。

总体来说,您的模型可能没有具体说明。如果可以,可以在模型中包括额外的x-variables,以便更好地反映数据生成过程。见本书第114页

票数 2
EN

Data Science用户

发布于 2021-01-23 06:33:24

整个建模框架效率低下,因为在范围的一小部分中,有很大一部分的观测数据聚集在一起。您将受益于切换到日志(利润)和日志(员工数量)。那么你所看到的效果就不会那么明显了。这样,小公司的拟合分布就不会受到大公司长尾的影响。

目前,你根本不适合小公司。从形式上讲,大公司目前正在充当高杠杆点。

转到对数是经济学、金融学等领域的一个众所周知的技巧.

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/88322

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档