前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >深度学习: 处理不平衡样本

深度学习: 处理不平衡样本

作者头像
JNingWei
发布2018-09-27 15:21:11
1.6K0
发布2018-09-27 15:21:11
举报
文章被收录于专栏:JNing的专栏JNing的专栏

Introduction

不平衡样本:

训练样本中 各类别间 数量差距较大。

易导致过拟合,影响在 极端测试集 (量少类样本居多) 上的 泛化能力

对不平衡样本的处理手段主要分为两大类:数据层面 (简单粗暴)算法层面 (复杂)

Note: 为了简明扼要,以下称 量少的类别 为 量少类,反之亦然。

数据层面

1. 数据重采样

上采样

下采样

使用情况

数据不足时

数据充足 (支撑得起你的浪费)

数据集变化

增加

间接减少(量大类被截流了)

具体手段

大量复制量少类样本;数据扩充

批处理训练时,控制从量大类取的图像数量

风险

过拟合

2. 类别平衡采样

通过设计 样本列表 来实现平衡采样。

算法层面

在目标函数中,增加 量少类 样本 被错分损失值

1. 基于代价敏感矩阵的代价敏感

利用 K×KK×KK \times K 的 矩阵CCC 对不同样本类别施加错分惩罚。

2. 基于代价敏感向量的代价敏感

每个样本 都具有自己的 代价敏感矩阵。一旦这样些代价敏感矩阵相同,则该方法 退化 为“基于代价敏感矩阵的代价敏感向量”。

Example:

  • Focal Loss focal loss 的出现,是一个伟大的里程碑。它的出现,直接将类别不平衡处理从原来繁杂的人工时代进化到了 纯计算时代 。管你类别再不平衡,只需一个简单的公式,统统搞定: FL(pt)=−(1−pt)γlog(pt)FL(pt)=−(1−pt)γlog⁡(pt) FL(p_t)=-(1-p_t)^\gamma\log(p_t)

[1] 解析卷积神经网络—深度学习实践手册 [2] Focal Loss for Dense Object Detection

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018年02月03日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Introduction
  • 数据层面
    • 1. 数据重采样
      • 2. 类别平衡采样
      • 算法层面
        • 1. 基于代价敏感矩阵的代价敏感
          • 2. 基于代价敏感向量的代价敏感
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档