前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >处理不平衡数据集的5种最有用的技术(2)

处理不平衡数据集的5种最有用的技术(2)

作者头像
计算机与AI
修改2023-09-24 14:42:30
1.3K0
修改2023-09-24 14:42:30
举报
文章被收录于专栏:计算机与AI计算机与AI

今天继续为同学们讲述剩余3种有效的技术来解决不平衡数据集所带来的问题。

3.模型中的类权重

大多数机器学习模型都提供一个名为的参数 class_weights。例如,在使用的随机森林分类器中, class_weights 我们可以使用字典为少数派类别指定更高的权重。

代码语言:javascript
复制
from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(class_weight={0:1,1:10})

但是到底发生了什么呢?

在逻辑回归中,我们使用二进制交叉熵计算每个示例的损失:

代码语言:javascript
复制
Loss = −ylog(p) − (1−y)log(1−p)

在这种特殊形式中,我们对正和负类给予同等的权重。当我们将class_weight设置为时 class_weight = {0:1,1:20},后台的分类器将尝试最小化:

代码语言:javascript
复制
NewLoss = −20 * y log(p) − 1 *(1- y)log(1- p)

那么到底发生了什么?

如果我们的模型给出的概率为0.3,但我们对一个正例进行了错误分类,则NewLoss获得的值为-20log(0.3)= 10.45

如果我们的模型给出的概率为0.7,并且我们对一个负示例进行了错误分类,则NewLoss将获得-log(0.3)= 0.52的值

这意味着,在这种情况下,如果模型对正面少数群体示例进行错误分类,我们将对其模型进行大约二十倍的罚款。

我们如何计算class_weights?

没有一种方法可以执行此操作,对于您的特定问题,应将其构造为超参数搜索问题。

但是,如果您想使用y变量的分布来获取class_weights,则可以使用中的以下漂亮工具 sklearn

代码语言:javascript
复制
from sklearn.utils.class_weight import compute_class_weight
class_weights = compute_class_weight('balanced', np.unique(y), y)

4.更改评估指标

每当我们使用不平衡的数据集时,选择正确的评估指标就非常重要。通常,在这种情况下,F1分数是我想要的 评估指标

F1分数是介于0和1之间的数字,是精确度和查全率的调和平均值。

那有什么帮助呢?

让我们从二进制预测问题开始。 我们正在预测小行星是否会撞击地球。

因此,我们创建了一个预测整个训练集“否”的模型。

准确度是多少(通常是最常用的评估指标)?

它超过99%,因此从准确性上来说,此模型相当不错,但毫无价值。

现在,F1分数是多少?

我们在这里的精度是0。我们的正班回忆是什么?它是零。因此F1分数也为0。

因此,我们知道,对于我们的案例而言,精度为99%的分类器毫无价值。因此,它解决了我们的问题。

简而言之, F1分数在分类器的准确性和查全率之间保持了平衡。如果您的精度低,则F1会低;如果召回率再次低,则您的F1分数会低。

如果您是警察检查员,并且想抓捕罪犯,则要确保抓捕的人是罪犯(精确度),并且还希望捕获尽可能多的罪犯(召回)。F1分数管理着这一权衡。

如何使用?

您可以使用以下方法计算二元预测问题的F1分数:

代码语言:javascript
复制
from sklearn.metrics import f1_score
y_true = [0, 1, 1, 0, 1, 1]
y_pred = [0, 0, 1, 0, 0, 1]
f1_score(y_true, y_pred)

这是我用来获取最佳阈值以最大化F1分数以进行二进制预测的功能之一。下面的函数迭代可能的阈值,以找到给出最佳F1分数的阈值。

代码语言:javascript
复制
# y_pred is an array of predictions
def bestThresshold(y_true,y_pred):
best_thresh = None
best_score = 0
for thresh in np.arange(0.1, 0.501, 0.01):
score = f1_score(y_true, np.array(y_pred)>thresh)
if score > best_score:
best_thresh = thresh
best_score = score
return best_score , best_thresh

5.其余方法

取决于您的用例和您要解决的问题,各种其他方法也可能起作用:

a)收集更多数据

如果可以的话,这绝对是您应该尝试的事情。通过更多正面示例获得更多数据,将有助于您的模型对多数和少数派有更多样化的认识。

b)将问题视为异常检测

您可能希望将分类问题视为异常检测问题。

异常检测 是指识别稀有物品,事件或观察结果,这些发现因与大多数数据有明显差异而引起怀疑

您可以使用隔离林或自动编码器进行异常检测。

c)基于模型

一些模型特别适合于不平衡的数据集。

例如,在增强模型中,我们对在每次树迭代中被错误分类的案例赋予更多权重。

结论

使用不平衡的数据集时,没有一种大小可以适合所有人。您将不得不根据自己的问题尝试多种方法。

在这篇文章中,我谈到了每当我遇到此类问题时就会想到的通常的嫌疑人。

建议是尝试使用上述所有方法,并尝试查看最适合您的用例的方法。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-09-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 计算机与AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 3.模型中的类权重
  • 4.更改评估指标
  • 如何使用?
  • 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档