文章/答案/技术大牛

发布

如何处理数据不均衡问题

文章来源：企鹅号 - 深度学习自然语言处理

阅读大概需要2分钟

跟随小博主，每天进步一丢丢

最近在打比赛期间，遇到了数据不均衡问题。于是网上查了查资料，便做了以下总结。嘿嘿

什么是数据不均衡问题

举个小栗子：

如果100个人中喜欢吃梨的有90人，喜欢吃苹果的有10人。

那么如果你随便在大街上找一个人，预测他是喜欢吃梨还是苹果？肯定的，傻子都知道猜他喜欢吃梨呀。因为这样基本不用学习什么知识，就能将准确率控制在90%左右。

用图表示就为：

真实值

预测值

像这种问题，傻子都会，还要机器干什么呢？所以，我们要找到真的学习并预测梨和苹果，且不受数据不均衡影响的分类器。

解决办法

1.想办法获取更多的数据

获取更多的数据，从数据来源查找更多的数据，来弥补数据的短缺。

2.换个评测方式

以前都用准确率accuracy，也就是预测对的个数 / 总个数。但是这个评测方式在高的准确率和低的误差并没有那么有说服力。那么怎么办呢？这个时候就该想起来准确率Precision和召回率Recall，从而求得的F1值。P，R，F1值是对所有类别的测评值。如果想了解更多，我之前写了该方法的理论与实践。

3.重组数据

这个方法就简单粗暴了。比如原始数据为：

方式一

将少的蓝色数据复制多份，使得数量和多的数据相当即可。

蓝色数据复制多份

注：这样做的缺点是可能会过拟合。

方式二

砍掉一些橙色部分，使得和蓝色基本持平。

注：这样做的缺点一般使得数据预测的不那么准确，因为数据丢失。

个人认为，建议优先选择方式一。

4.换机器学习算法

神经网络，对于数据不均衡问题真的是束手无策。可以换其他的机器学习方法，比如决策树之类，不受该问题影响。

5.修改算法

这个就腻害了，直接将算法改了，来改变数据不均衡带来的影响。

比如你使用的是sigmoid算法：

x=0为分界线，当x小于0时为梨，大于0的时候为苹果。但是梨比较多，那么可以将阈值x=0向右平移：

使得绝大多数预测的结果为梨，只有一些特别情况，极其确定的时候预测为苹果。

补充

对于上述的所有方法，我做一个补充。

1.选择复制小数据方法的时候，没必要非得要和大数据1:1才好。可以比例慢慢靠近，说不定期间就有一个比值就很好呢。毕竟实践才是检验真理的唯一标准。

2.砍掉大数据的方法尽量不要用，很可能会影响分类器的效果。

参考资料

morvanzhou

https://www.bilibili.com/video/av16009140?from=search&seid=1236544046869302415

IELTS a bit

discrepancyn. 不符；矛盾；相差

comparableadj. 可比较的；比得上的

minimumn. 最小值；最低限度；最小化；最小量

adj. 最小的；最低的

tardyadj. 缓慢的，迟缓的；迟到的

n. 迟到

n. 人名（Tardy）

unadornedadj. 朴素的；未装饰的

发表于: 2018-07-102018-07-10 07:00:00
原文链接：https://kuaibao.qq.com/s/20180710G07F3800?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

如何处理数据不均衡问题

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐