数据不平衡是指在数据集中,一类(或多类)样本特别多而另一类(或多类)样本特别少。这种问题广泛存在于金融欺诈、医学检测、网络入侵、异常检测等场景中。
由于多数类的样本在总样本占据的比重太多,少数类样本被忽视,训练出来的分类器更偏向于多数类导致分类器的性能下降。在实际生活中更是有着举足轻重的影响,比如电路电压急速上升,没有发生危险的情况预测报警没有什么影响,如果发生了危险还没有预测报警的话危害极大。
目录:
1,重复采样
2,SMOTE:Synthetic Minority Over-sampling Technique
3,ADASYN:自适应综合过采样方法
4,集成算法:后续更新
1,重复采样:
分为上采样(over sampling)和下采样(under sampling)
random over-sampling:
random under-sampling:
下述2种算法能够在一定程度上可以缓和这种情况:
2,合成数据:SMOTE (Synthetic Minority Over-sampling Technique);
算法原理如下:
合成数据 SMOTE
3,ADASYN:自适应综合过采样方法
算法步骤如下:
1),少数类样本数量为:ms;
多数类样本数量为:ml;
则不平衡度可以表述为:d = ms / ml ,显然d的取值区间是(0,1)。
2),计算需要合成的样本数量G:
G = (ml - ms)* b ,b取值区间为[0, 1]; 显然,当b = 1时,G=(ml - ms),此时,合成数据后,少数类与多数类的数量正好均衡,即相等。
3),对每个少数类样本,采用欧氏距离计算k个邻居,D为k个邻居中属于多数类样本的数量,记下比例:r = D / k, r的取值区间为[0,1]。
4),记下 3)中的每个少数类样本的r_i,
记:r_i_hat = r_i / (r_1+r_2+......+r_i+......+r_ml ); 表示:在总体样本视野下,少数类样本的周围的多数类样本情况。
5),对于每个少数类样本计算该规则下,合成样本的数量:
g_i = r_i_hat * G 。
6),在每个待合成的少数类样本得周围的k个邻居里选择一个少数类样本,根据下述等式计算合成的少数类样本:
s_i = x_i + (x_zi - x_i ) * λ ;
就是两个少数类样本连线上取合成值,填充少数类样本。重复合成少数类样本,直至达到该规则下应当合成的数量:g_i 。
本文分享自 MiningAlgorithms 微信公众号,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!