不平衡样本:
训练样本中 各类别间 数量差距较大。
易导致过拟合,影响在 极端测试集 (量少类样本居多) 上的 泛化能力 。
对不平衡样本的处理手段主要分为两大类:数据层面 (简单粗暴)、算法层面 (复杂) 。
Note: 为了简明扼要,以下称 量少的类别 为 量少类,反之亦然。
上采样 | 下采样 | |
---|---|---|
使用情况 | 数据不足时 | 数据充足 (支撑得起你的浪费) |
数据集变化 | 增加 | 间接减少(量大类被截流了) |
具体手段 | 大量复制量少类样本;数据扩充 | 批处理训练时,控制从量大类取的图像数量 |
风险 | 过拟合 |
通过设计 样本列表 来实现平衡采样。
在目标函数中,增加 量少类 样本 被错分 的 损失值 。
利用 K×KK×KK \times K 的 矩阵CCC 对不同样本类别施加错分惩罚。
每个样本 都具有自己的 代价敏感矩阵。一旦这样些代价敏感矩阵相同,则该方法 退化 为“基于代价敏感矩阵的代价敏感向量”。
Example:
[1] 解析卷积神经网络—深度学习实践手册 [2] Focal Loss for Dense Object Detection