深度学习: 处理不平衡样本

JNingWei

发布于 2018-09-27 15:21:11

1.7K0

发布于 2018-09-27 15:21:11

文章被收录于专栏：JNing的专栏

Introduction

不平衡样本：

训练样本中各类别间数量差距较大。

易导致过拟合，影响在 极端测试集 (量少类样本居多) 上的 泛化能力 。

对不平衡样本的处理手段主要分为两大类：数据层面 (简单粗暴)、算法层面 (复杂) 。

Note： 为了简明扼要，以下称量少的类别为 量少类，反之亦然。

数据层面

1. 数据重采样

	上采样	下采样
使用情况	数据不足时	数据充足 (支撑得起你的浪费)
数据集变化	增加	间接减少(量大类被截流了)
具体手段	大量复制量少类样本；数据扩充	批处理训练时，控制从量大类取的图像数量
风险	过拟合

2. 类别平衡采样

通过设计 样本列表 来实现平衡采样。

算法层面

在目标函数中，增加 量少类 样本 被错分 的 损失值 。

1. 基于代价敏感矩阵的代价敏感

利用 K×KK×KK \times K 的矩阵CCC 对不同样本类别施加错分惩罚。

2. 基于代价敏感向量的代价敏感

每个样本 都具有自己的代价敏感矩阵。一旦这样些代价敏感矩阵相同，则该方法退化为“基于代价敏感矩阵的代价敏感向量”。

Example：

Focal Loss focal loss 的出现，是一个伟大的里程碑。它的出现，直接将类别不平衡处理从原来繁杂的人工时代进化到了 纯计算时代 。管你类别再不平衡，只需一个简单的公式，统统搞定： FL(pt)=−(1−pt)γlog(pt)FL(pt)=−(1−pt)γlog⁡(pt) FL(p_t)=-(1-p_t)^\gamma\log(p_t)

[1] 解析卷积神经网络—深度学习实践手册 [2] Focal Loss for Dense Object Detection

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018年02月03日，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

深度学习: 处理不平衡样本

深度学习: 处理不平衡样本

Introduction

数据层面

1. 数据重采样

2. 类别平衡采样

算法层面

1. 基于代价敏感矩阵的代价敏感

2. 基于代价敏感向量的代价敏感

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐