非平衡数据集 focal loss 多类分类

AI研习社

发布于 2019-05-08 16:04:56

3.6K0

发布于 2019-05-08 16:04:56

文章被收录于专栏：AI研习社

本文为 AI 研习社编译的技术博客，原标题： Multi-class classification with focal loss for imbalanced datasets 作者 | Chengwei Zhang 翻译 | 汪鹏校对 | 斯蒂芬·二狗子审核 | Pita 整理 | 立鱼王原文链接： https://medium.com/swlh/multi-class-classification-with-focal-loss-for-imbalanced-datasets-c478700e65f5

焦点损失函数 Focal Loss（2017年何凯明大佬的论文）被提出用于密集物体检测任务。它可以训练高精度的密集物体探测器，哪怕前景和背景之间比例为1：1000（译者注：facal loss 就是为了解决目标检测中类别样本比例严重失衡的问题）。本教程将向您展示如何在给定的高度不平衡的数据集的情况下，应用焦点损失函数来训练一个多分类模型。

背景

让我们首先了解类别不平衡数据集的一般的处理方法，然后再学习 focal loss 的解决方式。

在多分类问题中，类别平衡的数据集的目标标签是均匀分布的。若某类目标的样本相比其他类在数量上占据极大优势，则可以将该数据集视为不平衡的数据集。这种不平衡将导致两个问题：

训练效率低下，因为大多数样本都是简单的目标，这些样本在训练中提供给模型不太有用的信息；
简单的样本数量上的极大优势会搞垮训练，使模型性能退化。

一种常见的解决方案是执行某种形式的困难样本挖掘，实现方式就是在训练时选取困难样本或使用更复杂的采样，以及重新对样本加权等方案。

对具体图像分类问题，对数据增强技术方案变更，以便为样本不足的类创建增强的数据。

焦点损失函数旨在通过降低内部加权（简单样本）来解决类别不平衡问题，这样即使简单样本的数量很大，但它们对总损失的贡献却很小。也就是说，该函数侧重于用困难样本稀疏的数据集来训练。

将 Focal Loss 应用于欺诈检测任务

为了演示，我们将会使用 Kaggle上的欺诈检测数据集构建一个分类器，这个数据及具有极端的类不平衡问题，它包含总共6354407个正常样本和8213个欺诈案例，两者比例约为733：1。对这种高度不平衡的数据集的分类问题，若某模型简单猜测所有输入样本为“正常”就可以达到733 /（733 + 1）= 99.86％的准确度，这显然是不合理。因此，我们需要的是这个模型能够正确检测出欺诈案例。

为了证明focal loss 比传统技术更有效，让我们建立一个简单地使用类别权重 class_weight训练的基准模型，告诉模型“更多地关注”来自代表性不足的欺诈样本。