机器学习中非平衡数据处理

总第97篇

这一篇主要说一下机器学习中非平衡数据的处理方式以及用python如何实现.

在前面的一篇推文中我们提到过,非平衡数据会影响最后的评判效果,严重的会带来过拟合的效果,即模型总是把样本划分到样本量较多的那一种。为了让模型的评判更准确,我们需要对非平衡数据进行一定的处理,主要有以下几种方式:

  • 欠采样
  • 过采样
  • 人工合成
  • 调权重

在开始介绍不同的处理方式之前,我们先引入一组非平衡数据。

#导入一些相关库
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.metrics import roc_curve, auc
from sklearn.preprocessing import scale
#导入数据
df=pd.read_excel(r"C:\Users\zhangjunhong\Desktop\Unbanlanced-data.xlsx").fillna(0)

看一下正负样本的具体数据量情况。

x=df.iloc[:,1:-1]
y=df["label"]
print(y.value_counts())
print("-------------------------")
print(y.value_counts(normalize=True))

该数据量的正负样本比例接近7:3,我们看一下不做任何处理的情况下,模型的预测效果如何。

#将模型进行封装,方便调用
def get_result_data(x,y):
    x_=scale(x,with_mean=True,with_std=True)
    x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.4,random_state=0)
    model=LogisticRegression()
    clf=model.fit(x_train,y_train)
    print("LR模型测试成绩:{:.2f}".format(clf.score(x_test,y_test)))
    y_pred=clf.predict(x_test)
    target_names = ['class 0', 'class 1']
    print(classification_report(y_test, y_pred, target_names=target_names))
    y_pred1=clf.decision_function(x_test)
    fpr,tpr,threshold=roc_curve(y_test,y_pred1)
    rocauc=auc(fpr,tpr)#计算AUC
    print("ROC分数:{:.2f}".format(rocauc))

if __name__=="__main__":
    get_result_data(x,y)

模型的准确率是0.75,ROC分数也就是AUC值为0.76,看着还不错,但是class1的召回率要明显高于class0的召回率,这是因为原样本量中,class1的量要明显高于class0的原因。

欠采样

下采样(under-sampling),是对非平衡数据中样本数较多的那一类进行采样,采样使其约等于样本量较少那一类的样本量。

df1=df[df["label"]==1]#正样本部分
df0=df[df["label"]==0]#负样本部分

#对正样本按0.5的比例进行下采样
df2=df1.sample(frac=0.5)

#将下采样后的正样本与负样本进行组合
df_new=pd.concat([df0,df2])

x=df_new.iloc[:,1:-1]
y=df_new["label"]

#下采样以后正负样本量情况
print(y.value_counts())
print("-------------------------")
print(y.value_counts(normalize=True))

对模型进行下采样以后,正负样本的样本量基本接近1:1,符合我们目的,接下来看看下采样后的模型表现。

if __name__=="__main__":
    get_result_data(x,y)

模型的准确率略有下降,但是ROC分数没发生什么变化,class0和class1的召回率也接近相等。

过采样

过采样(over-sampling),是对非平衡数据中样本数较少的那一类进行采样,常规的做法就是将其复制几遍来达到正负样本平衡,因为是同样的数据复制多份,很容易发生过拟合,一般比较少用。具体的实现方式就比较简单啦,这里不罗列。

人工合成

人工合成就是人为地去合成一些样本量较少的数据,来达到正负样本平衡,人工合成数据能够很好地避免过采样带来的模型过拟合。比较常用的方法就是SMOTE。

SMOTE的算法原理如下:

  1. 根据正负样本比例,确认采样的比例,即要合成样本的数量(k值)
  2. 对于少数样本中的每个x,利用KNN算法,选取k个待采样的值x_n
  3. 然后对x_n进行如下运算得到对应的x_new:x_new=x+rand(1)*|x-x_n|

(rand(1)表示生成0-1之间的一个随机数)

关于SMOTE算法的实现也由现成的库,我们直接pip安装就可以使用。

from collections import Counter
from imblearn.over_sampling import SMOTE 
print('Original dataset shape {}'.format(Counter(y)))
sm = SMOTE(random_state=42)
X_res, y_res = sm.fit_sample(x, y)
print('Resampled dataset shape {}'.format(Counter(y_res)))

原本正负样本绝对量分别为12193:5617,人工合成部分样本量以后,正负样本的绝对量变为了12193:12193,完全平衡。

人工合成以后模型预测效果

if __name__=="__main__":
    get_result_data(X_res, y_res)

模型的准确率和ROC分数较欠采样都有略微的上涨,其中class0的召回上涨,class1略降。

调权重

调权重就是调整模型中正负样本的在模型表现中的表决权重,以此来平衡样本绝对量的不平衡。比如正负样本绝对量的比值为1:10,为了抵消这种量级上的不平衡,我们在模型中可以给与模型正负样本10:1的表决权重,也就是10个正样本的表决相当于1个负样本的表决。

这个过程我们也可以直接设置模型参数class_weight="balanced"进行实现。

x_=scale(x,with_mean=True,with_std=True)
x_train,x_test,y_train,y_test=train_test_split(x,y,test_size=0.4,random_state=0)

model=LogisticRegression(class_weight="balanced")
clf=model.fit(x_train,y_train)
print("LR模型测试成绩:{:.2f}".format(clf.score(x_test,y_test)))
y_pred=clf.predict(x_test)

target_names = ['class 0', 'class 1']
print(classification_report(y_test, y_pred, target_names=target_names))

y_pred1=clf.decision_function(x_test)
fpr,tpr,threshold=roc_curve(y_test,y_pred1)
rocauc=auc(fpr,tpr)#计算AUC
print("ROC分数:{:.2f}".format(rocauc))

调权重的结果和人工合成数据的结果接近一致。

最后

通过上面几种方法的模型结果可以看出:

  • 用任意一种方式处理或者不处理,ROC基本是一致的,这也验证了我们在前面的推文中说到的,ROC是和样本是否平衡没关系的。
  • 如果不做任何处理,模型的准确率会高,但是会发生严重的过拟合。
  • 在做处理的这几种方式中,欠采样的效果要差于其他三种。
  • 综合来看,直接在模型参数中调权重是效果最好,也是最快捷的一种方式,不用事先去做什么处理。

本文最后的结论是针对本次数据得出的结论,不代表在任何数据上效果都是如此,可能会限于数据本身的原因,结果会有所不同,本文重点讲述非平衡数据不同的处理方式以及实现方式

如果对本文的一些指标不是很清楚,你可以看:机器学习模型效果评估

原文发布于微信公众号 - 张俊红(zhangjunhong0428)

原文发表时间:2018-03-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏技术翻译

用数学方法解密神经网络

在本文中,我们将讨论简单神经网络背后的数学概念。其主要目的是说明在建立我们自己的人工智能模型时,数学是如何发挥巨大作用的。

1520
来自专栏AI派

一份非常全面的机器学习分类与回归算法的评估指标汇总

读完机器学习算法常识之后,你已经知道了什么是欠拟合和过拟合、偏差和方差以及贝叶斯误差。在这篇给大家介绍一些机器学习中离线评估模型性能的一些指标。

3795
来自专栏MelonTeam专栏

深度学习简易入门

深度学习是机器学习中的一个重要的方向,深度学习其实就是神经网络学习,这里“深度”就是说神经网络中众多的层。

2267
来自专栏新智元

从0上手Kaggle图像分类挑战:冠军解决方案详解

【新智元导读】这篇文章介绍了作者在Kaggle植物幼苗分类比赛使用的方法,该方法连续几个月排名第一,最终排名第五。该方法非常通用,也可以用于其他图像识别任务。

1950
来自专栏和蔼的张星的图像处理专栏

3. 经典卷积网络之GooleInceptionNet

GooleInceptionNet首次出现是在2014年的ILSVRC的比赛中,当时是第一名,最大的特点就是控制计算量的同时获得了比较好的分类性能--top-5...

1462
来自专栏机器学习算法工程师

fine-gained image classification

我们在路边看到萌犬可爱至极,然后却不知道这个是哪种狗;看见路边的一个野花却不知道叫什么名字,吃着一种瓜,却不知道是甜瓜还是香瓜傻傻分不清……

1072
来自专栏机器学习算法工程师

细粒度分类你懂吗?——fine-gained image classification

我们在路边看到萌犬可爱至极,然后却不知道这个是哪种狗;看见路边的一个野花却不知道叫什么名字,吃着一种瓜,却不知道是甜瓜还是香瓜傻傻分不清……

1513
来自专栏AI深度学习求索

传统特征:HOG特征原理

为了减少光照因素的影响,首先需要将整个图像进行规范化(归一化),有效地降低图像局部的阴影和光照变化。

1443
来自专栏大数据文摘

小白学数据:教你用Python实现简单监督学习算法

1894
来自专栏机器之心

学界 | 微软亚洲研究院CVPR 2017 Oral论文:逐层集中Attention的卷积模型

选自CVPR 2017 机器之心编译 参与:Smith、路雪、蒋思源 通过计算机视觉方法识别纹理细密的物体种类已经受到了学界的强烈关注。这一类任务往往是极具挑战...

3245

扫码关注云+社区