我组装了一个数据帧,其中包括日期、所述日期的天气、指定是否发生森林火灾的虚拟对象,以及森林火灾的烧毁区域。问题是,如果我使用train_test_split,我的机器学习模型使用整个数据,并且数据帧中只有5%的日期发生森林火灾,因此它倾向于训练自己来实际预测所有日子都不会发生火灾。或者别的什么,我还是不明白。
无论如何,我相信如果我只用包含森林火灾的天数来训练模型,然后用整个数据框架来测试它,它可以更好地预测森林火灾。有人知道我该怎么做吗?我使用的是python 3和jupyter笔记本。我认为RandomForest也最适合解决这个机器学习问题。
发布于 2020-06-23 02:42:17
您正在处理一个不平衡的数据集。有许多方法可以处理它,这取决于您拥有的数据。
如果你有一个非常大的数据集,你可以用挑剔的样本训练你的模型,一半有森林火灾,一半没有。
如果不是这样,那么你需要走得更远一点。例如,你可以在here上阅读更多关于它的信息。
https://stackoverflow.com/questions/62521215
复制相似问题