首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >去除重复对随机森林回归的影响

去除重复对随机森林回归的影响
EN

Data Science用户
提问于 2021-03-13 13:38:55
回答 1查看 568关注 0票数 0

我有一个包含数百万个样本的数据集,它们有5个特性和1个目标,我正在使用它作为回归模型。有了非常大的样本计数,一些模型(比如随机森林)变得非常大(腌制时有几个GB )。

这些数据通常有重复的或接近重复的--这些是真实的观测--但测量值只是巧合地相同(这是仪器输入范围和精度有限的结果)。

(理论上)或去除重复对模型准确性的影响是什么?

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-03-13 16:49:38

你的模型会变得不太准确。

例如,假设你有特征A和B,你有51个观察。对于其中的50个A=10和B=20对应的依赖值为5,而您有一个观测值,其中A=10和B=20对应的依赖值为100。

在使用A=10和B=20对新观测进行预测时,在不删除重复值的情况下,随机森林将给出上述51种值的大致平均值,接近6.86。如果删除重复项,平均将得到5和100或52.5。

假设您的测试数据具有与原始数据相同的分布,那么在许多观测数据上,模型都会很远。因此,除非您有充分的理由相信测试数据会有不同的分布,否则不要删除重复的值。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/90592

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档