解决分类样本不平衡问题 ~ ML&DM面试高频问题

样本不平衡会导致出现以下的问题: (1)少数类所包含的信息很有限,难以确定少数类数据的分布,即难以在内部挖掘规律,造成少数类的识别率低; (2)很多分类算法采用分治法,样本空间的逐渐划分会导致数据碎片问题,这样只能在各个独立的子空间中寻找数据的规律,对于少数类来说每个子空间中包含了很少的数据信息,一些跨空间的数据规律就不能被挖掘出来。 (3)不恰当的归纳偏置系统在存在不确定时往往倾向于把样本分类为多数类。

研究表明,在某些应用下,1∶35的比例就会使某些分类方法无效,甚至1∶10的比例也会使某些分类方法无效。

根据个人经验,非平衡数据集的处理与建模,主要可以从一下几个方面进行考虑:

1. 收集更多的数据。很多时候多收集数据,这是最容易被忽略的方法。

2. 过采样。抽样处理不平衡数据的最常用方法,基本思想就是通过改变训练数据的分布来消除或减小数据的不平衡。通过增加少数类样本来提高少数类的分类性能 ,最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息。改进的过抽样方法通过在少数类中加入随机高斯噪声或产生新的合成样本等方法。 3.欠采样。通过减少多数类样本来提高少数类的分类性能,最简单的方法是通过随机地去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息。 4. 从算法层面所考虑的解决方案 (a) 重构训练集的方法。不改变已有算法,而是根据样本的不同错分代价给训练集中的每一个样本赋一个权值,接着按权重对原始样本集进行重构。 (b) 引入代价敏感因子,设计出代价敏感的分类算法。通常对小样本赋予较高的代价,大样本赋予较小的代价,期望以此来平衡样本之间的数目差异。 (c) 用bagging/ boosting/ ensemble等模型平均的方法。

(d) 评价模型的方法。用confusion matrix, AUC/ROC等方法来评估模型。

5. 特征选择 样本数量分布很不平衡时,特征的分布同样会不平衡。尤其在文本分类问题中,在大类中经常出现的特征,也许在稀有类中根本不出现。因此,根据不平衡分类问题的特点,选取最具有区分能力的特征,有利于提高稀有类的识别率 。

原文发布于微信公众号 - 机器学习算法与Python学习(guodongwei1991)

原文发表时间:2017-03-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序你好

关于神经网络技术演化史

神经网络和深度学习技术是当今大多数高级智能应用的基础。在本文中,来自阿里巴巴搜索部门的高级算法专家孙飞博士将简要介绍神经网络的发展,并讨论该领域的最新方法。

12640
来自专栏AI科技评论

干货 | 上海交通大学CVPR Spotlight论文:利用形态相似性生成人体部位解析数据

AI 科技评论按:本文由上海交通大学的方浩树为 AI 科技评论所撰写的独家解读稿件,未经许可不得转载。

15120
来自专栏CDA数据分析师

几千条文本库也能做机器学习!NLP小数据集训练指南

深度学习往往需要大量数据,不然就会出现过度拟合,本文作者提出了一些在文本数据量不够大的时候可用的一些实用方法,从而赋予小数据集以价值。

10730
来自专栏专知

【论文推荐】ICLR18论文预读-深度学习泛化研究:多层非线性复合是对最大熵原理的递归逼近实现

【导读】两天前,专知公众号发布了深度学习顶会 ICLR 2018 匿名提交论文列表,今天我们很荣幸有老师和同学来自荐他们的在ICLR2018上的工作,后续我们会...

33560
来自专栏腾讯技术工程官方号的专栏

论如何用AI做视频滤镜:SIGGRAPH Asia 2016

新海诚“你的名字”同款滤镜着实在各社群火爆一把,朋友圈中滤镜粉们纷纷穿越到二次元,普通图片经过滤镜的渲染粉饰重获“新生”。滤镜处理图片的技术现在已经司空见惯,但...

24390
来自专栏AI科技大本营的专栏

入门深度学习,先看看三位顶级大牛Yann LeCun、Yoshua Bengio和Geoffrey Hinton的联合综述

【编者按】深度学习领域的三位大牛Yann LeCun、Yoshua Bengio和Geoffrey Hinton无人不知无人不晓。此前,为纪念人工智能提出60周...

36640
来自专栏机器学习算法与Python学习

深度学习综述:Hinton、Yann LeCun和Bengio经典重读

翻译 | kevin,刘志远 审校 | 李成华 深度学习世界 【编者按】深度学习三巨头Geoffrey Hinton、Yann LeCun和Yoshua Ben...

314100
来自专栏奇点大数据

AI从业者需要应用的10种深度学习方法

深度学习是作为这个领域的一个重要竞争者,在这个十年的爆炸式的计算增长中出现的,赢得了许多重要的机器学习竞赛。利息至2017年尚未降温; 今天,我们看到在机器学习...

36340
来自专栏大数据文摘

几千条文本库也能做机器学习!NLP小数据集训练指南

深度学习往往需要大量数据,不然就会出现过度拟合,本文作者提出了一些在文本数据量不够大的时候可用的一些实用方法,从而赋予小数据集以价值。

13320
来自专栏AI科技评论

大会 | 智能感知与计算研究中心11篇论文被CVPR接收

AI 科技评论按:本文作者郭瑞娥,首发于中科院自动化所「智能感知与计算研究中心」微信公众号,AI 科技评论获授权转载。 CVPR 是计算机视觉、模式识别和人工智...

29660

扫码关注云+社区

领取腾讯云代金券