前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >机器学习4--Imbalance data:重复采样;合成数据;集成算法

机器学习4--Imbalance data:重复采样;合成数据;集成算法

作者头像
用户5473628
发布2019-08-08 10:57:47
2K0
发布2019-08-08 10:57:47
举报
文章被收录于专栏:MiningAlgorithms

数据不平衡是指在数据集中,一类(或多类)样本特别多而另一类(或多类)样本特别少。这种问题广泛存在于金融欺诈、医学检测、网络入侵、异常检测等场景中。

由于多数类的样本在总样本占据的比重太多,少数类样本被忽视,训练出来的分类器更偏向于多数类导致分类器的性能下降。在实际生活中更是有着举足轻重的影响,比如电路电压急速上升,没有发生危险的情况预测报警没有什么影响,如果发生了危险还没有预测报警的话危害极大。

目录:

1,重复采样

2,SMOTE:Synthetic Minority Over-sampling Technique

3,ADASYN:自适应综合过采样方法

4,集成算法:后续更新

1,重复采样:

分为上采样(over sampling)和下采样(under sampling)

random over-sampling:

  • 原有分布:负样本980,正样本20
  • over-sampling后:负样本980,正样本500
  • 优点:
    • 保留了所有有用信息
  • 缺点:
    • 加入一些无关紧要的负样本,或者是已有负样本的重复,导致overfiting,过拟合

random under-sampling:

  • 原有分布:负样本980,正样本20
  • under-sampling后:负样本98,正样本20
  • 优点:
    • 提升运算效率,减少运算时间
  • 缺点:
    • 有可能丢失重要的信息
    • 对总体的估计可能是有偏差的

下述2种算法能够在一定程度上可以缓和这种情况:

  • SMOTE
  • Adasyn

2,合成数据:SMOTE (Synthetic Minority Over-sampling Technique);

算法原理如下:

合成数据 SMOTE

  • 原有分布:负样本980,正样本20
  • 合成数据后后:负样本980,正样本500 (非重复采样,而是生成正样本数据)
  • 优点:
    • 保留负样本所有信息
    • 通过随机采样生成的合成样本而非实例的副本,减缓过拟合
  • 缺点:
    • 生成合成性实例,导致了类重叠的增加,SMOTE生成的数据可能引入更多的噪音
    • 对高维的数据效果不好

3,ADASYN:自适应综合过采样方法

算法步骤如下:

1),少数类样本数量为:ms;

多数类样本数量为:ml;

则不平衡度可以表述为:d = ms / ml ,显然d的取值区间是(0,1)。

2),计算需要合成的样本数量G:

G = (ml - ms)* b ,b取值区间为[0, 1]; 显然,当b = 1时,G=(ml - ms),此时,合成数据后,少数类与多数类的数量正好均衡,即相等。

3),对每个少数类样本,采用欧氏距离计算k个邻居,D为k个邻居中属于多数类样本的数量,记下比例:r = D / k, r的取值区间为[0,1]。

4),记下 3)中的每个少数类样本的r_i,

记:r_i_hat = r_i / (r_1+r_2+......+r_i+......+r_ml ); 表示:在总体样本视野下,少数类样本的周围的多数类样本情况。

5),对于每个少数类样本计算该规则下,合成样本的数量:

g_i = r_i_hat * G 。

6),在每个待合成的少数类样本得周围的k个邻居里选择一个少数类样本,根据下述等式计算合成的少数类样本:

s_i = x_i + (x_zi - x_i ) * λ ;

就是两个少数类样本连线上取合成值,填充少数类样本。重复合成少数类样本,直至达到该规则下应当合成的数量:g_i 。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-11-20,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 MiningAlgorithms 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档