首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >“手动”分配训练和测试数据

“手动”分配训练和测试数据
EN

Stack Overflow用户
提问于 2020-06-23 02:35:11
回答 1查看 16关注 0票数 0

我组装了一个数据帧,其中包括日期、所述日期的天气、指定是否发生森林火灾的虚拟对象,以及森林火灾的烧毁区域。问题是,如果我使用train_test_split,我的机器学习模型使用整个数据,并且数据帧中只有5%的日期发生森林火灾,因此它倾向于训练自己来实际预测所有日子都不会发生火灾。或者别的什么,我还是不明白。

无论如何,我相信如果我只用包含森林火灾的天数来训练模型,然后用整个数据框架来测试它,它可以更好地预测森林火灾。有人知道我该怎么做吗?我使用的是python 3和jupyter笔记本。我认为RandomForest也最适合解决这个机器学习问题。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-06-23 02:42:17

您正在处理一个不平衡的数据集。有许多方法可以处理它,这取决于您拥有的数据。

如果你有一个非常大的数据集,你可以用挑剔的样本训练你的模型,一半有森林火灾,一半没有。

如果不是这样,那么你需要走得更远一点。例如,你可以在here上阅读更多关于它的信息。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62521215

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档