我有一个CNN的回归,采取一个图像和输出浮点0-10。我的模型做得很好,但是我有一个严重的不平衡数据的问题,使我的模型对几乎所有的图像进行6-8的预测,但是实现了一个相当好的均方误差。我知道人们根据数据集的不平衡程度来加权他们的类。那么,有办法用回归模型来做到这一点吗?如果有帮助的话,我的输出就是一个浮点,但是我的所有数据都在0-10范围内间隔0.5,所以在某种程度上有20个不同的类。这是我的数据标签的分布情况。
据我所知,还有其他方法,例如:
有什么建议吗?谢谢。
发布于 2019-07-30 23:20:43
您的数据最初可能代表了一个回归问题,但是在将其绑定到20个组之后,您将对您的模型进行 20类分类问题的培训。因此,你应该这样对待它,并寻找方法来消除这种不平衡。最普遍的方法是:
我通常更喜欢第一种,因为模型使用更多的数据往往做得更好,但是第三种模型更容易实现,并且不会给培训增加额外的计算成本。
发布于 2019-07-30 23:21:27
击打是一种流行的过采样技术.
至于优化不同的度量,一种选择是优化加权损失,其中权重与类表示的逆成正比。
https://stackoverflow.com/questions/57281177
复制相似问题