深度学习: 处理不平衡样本

Introduction

不平衡样本:

训练样本中 各类别间 数量差距较大。

易导致过拟合,影响在 极端测试集 (量少类样本居多) 上的 泛化能力

对不平衡样本的处理手段主要分为两大类:数据层面 (简单粗暴)算法层面 (复杂)

Note: 为了简明扼要,以下称 量少的类别 为 量少类,反之亦然。

数据层面

1. 数据重采样

上采样

下采样

使用情况

数据不足时

数据充足 (支撑得起你的浪费)

数据集变化

增加

间接减少(量大类被截流了)

具体手段

大量复制量少类样本;数据扩充

批处理训练时,控制从量大类取的图像数量

风险

过拟合

2. 类别平衡采样

通过设计 样本列表 来实现平衡采样。

算法层面

在目标函数中,增加 量少类 样本 被错分损失值

1. 基于代价敏感矩阵的代价敏感

利用 K×KK×KK \times K 的 矩阵CCC 对不同样本类别施加错分惩罚。

2. 基于代价敏感向量的代价敏感

每个样本 都具有自己的 代价敏感矩阵。一旦这样些代价敏感矩阵相同,则该方法 退化 为“基于代价敏感矩阵的代价敏感向量”。

Example:

  • Focal Loss focal loss 的出现,是一个伟大的里程碑。它的出现,直接将类别不平衡处理从原来繁杂的人工时代进化到了 纯计算时代 。管你类别再不平衡,只需一个简单的公式,统统搞定: FL(pt)=−(1−pt)γlog(pt)FL(pt)=−(1−pt)γlog⁡(pt) FL(p_t)=-(1-p_t)^\gamma\log(p_t)

[1] 解析卷积神经网络—深度学习实践手册 [2] Focal Loss for Dense Object Detection

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

学术丨深度学习零基础进阶第四弹​

AI 科技评论曾编译了《干货分享 | 深度学习零基础进阶大法!》系列,相信读者一定对深度学习的历史有了一个基本了解,其基本的模型架构(CNN/RNN/LSTM)...

27690
来自专栏小巫技术博客

深度学习,NLP和表征(译)

10730
来自专栏小小挖掘机

推荐系统遇上深度学习(二十)--贝叶斯个性化排序(BPR)算法原理及实战

排序推荐算法大体上可以分为三类,第一类排序算法类别是点对方法(Pointwise Approach),这类算法将排序问题被转化为分类、回归之类的问题,并使用现有...

19220
来自专栏数据科学与人工智能

深度学习已成功应用于这三大领域

编者按:本文选自图书《Deep Learning》中文版第十二章部分内容,《深度学习》由全球知名的三位专家Ian Goodfellow、Yoshua Bengi...

28440
来自专栏CDA数据分析师

大数据时代空间数据挖掘的认识及其思考

引言 空间数据挖掘(Spatial Data Mining,SDM)即找出开始并不知道但是却隐藏在空间数据中潜在的、有价值的规则的过程。具体来说,空间数据挖掘就...

292100
来自专栏AI研习社

文本嵌入的经典模型与最新进展

AI 研习社按:这篇文章来自自然语言处理以及机器学习专家、Huggingface 的技术负责人 Thomas Wolf,介绍了文本嵌入的重点知识和最新趋势。 A...

11410
来自专栏企鹅号快讯

人工智能之文本摘要自动生成

当我们点开某个网站或某个新闻APP的时候,经常能看到这样的题目:“14亿人都不知道的真相,历史的血泪……”、“删前速看!XXX视频流出”等,可是当我们点进去的时...

89170
来自专栏PPV课数据科学社区

一文看懂自然语言处理(NLP)的深度学习发展史和待解难题

自然语言处理(NLP)是指机器理解并解释人类写作与说话方式的能力。近年来,深度学习技术在自然语言处理方面的研究和应用也取得了显著的成果。 技术博客Sigmoid...

49560
来自专栏量子位

自然语言处理中的深度学习发展史和待解难题

王小新 编译自 sigmoidal 量子位 出品 | 公众号 QbitAI 自然语言处理(NLP)是指机器理解并解释人类写作与说话方式的能力。近年来,深度学习技...

48490
来自专栏吉浦迅科技

(图解)类神经网络的复兴:深度学习简史

前述:人工智能与机器学习的演进 1950年代计算机发明以来,科学家便希冀着利用计算机创造出人工智能。然而当时的人工智能理论采用的是逻辑推理方法,需要百分之百确...

567120

扫码关注云+社区

领取腾讯云代金券