首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Github|类别不平衡学习资源(下)

Github|类别不平衡学习资源(下)

作者头像
kbsc13
发布2020-05-27 11:21:48
7770
发布2020-05-27 11:21:48
举报

继续介绍类别不平衡学习资源,github 地址:

https://github.com/ZhiningLiu1998/awesome-imbalanced-learning

Github|类别不平衡学习资源(上)

另外,完整版阅读可以到我的知乎专栏:https://zhuanlan.zhihu.com/p/142692473

这次介绍的是下面目录加粗的内容:

  • 代码库/框架
    • Python
    • R
    • Java
    • Scalar
    • Julia
  • 论文
    • 综述
    • 深度学习
    • 数据重采样(Data resampling)
    • 成本敏感学习(Cost-sensitive Learning)
    • 集成学习(Ensemble Learning)
    • 异常检测
  • 其他
    • 不平衡数据库
    • 其他的资源

另外,带有? 标记的是作者特别推荐的重要或者高质量的论文和框架。


数据重采样
  • 过采样
    • ROS [Code] - 随机过采样
    • SMOTE [Code] (2002, 9800+ 引用) ,合成少数类的过采样技术(Synthetic Minority Over-sampling TEchnique) ? 经典的工作
    • Borderline-SMOTE [Code] (2005, 1400+ 引用) ,边界合成少数类的过采样技术;
    • ADASYN [Code] (2008, 1100+ 引用) ,自适应合成采样(ADAptive SYNthetic Sampling);
    • SPIDER [Code (Java)] (2008, 150+ 引用) ,不平衡数据的选择性预处理;
    • Safe-Level-SMOTE [Code (Java)] (2009, 370+ 引用) ,安全级综合少数类的过采样技术;
    • SVM-SMOTE [Code] (2009, 120+ 引用) ,基于 SVM 的 SMOTE
    • SMOTE-IPF (2015, 180+ 引用) ,迭代分区过滤的 SMOTE
  • 欠采样
  • RUS [Code],随机欠采样;
  • CNN [Code] (1968, 2100+ 引用) ,浓缩的最近邻(Condensed Nearest Neighbor);
  • ENN [Code] (1972, 1500+ citations) ,可编辑的浓缩的最近邻(Edited Condensed Nearest Neighbor);
  • TomekLink [Code] (1976, 870+ citations) ,Tomek 对浓缩的最近邻的修正方法;
  • NCR [Code] (2001, 500+ 引用) , 近邻的清洗规则;
  • NearMiss-1 & 2 & 3 [Code] (2003, 420+ 引用) ,几种解决不平衡数据分布的 KNN 方法
  • CNN with TomekLink [Code (Java)] (2004, 2000+ 引用) ,结合了浓缩的最近邻和 TomekLink 方法;
  • OSS [Code] (2007, 2100+ 引用):单边选择(One Side Selection);
  • EUS (2009, 290+ 引用) :进化的欠采样(Evolutionary Under-sampling);
  • IHT [Code] (2014, 130+ 引用) :实例难度阈值(Instance Hardness Threshold);
  • 混合采样
  • SMOTE-Tomek & SMOTE-ENN (2004, 2000+ 引用) [Code (SMOTE-Tomek)] [Code (SMOTE-ENN)] ,综合少数过采样技术和 Tomek 对压缩近邻/编辑近邻的修改; ?广泛的实验评估涉及10种不同的过/欠采样方法。
  • SMOTE-RSB (2012, 210+ 引用) ,混合了使用 SMOTE 预处理和粗糙集合理论;
成本敏感学习
  • CSC4.5 [Code (Java)] (2002, 420+ 引用) ,一个实际加权方法来引起成本敏感树;
  • CSSVM [Code (Java)] (2008, 710+ 引用) ,用于高度不平衡分类的成本敏感 SVMs;
  • CSNN[Code (Java)] (2005, 950+ 引用) ,基于解决类别不平衡问题的方法来训练一个成本敏感的神经网络;
集成学习
  • Boosting-based
    • AdaBoost[Code] (1995, 18700+ 引用)
    • DataBoost (2004, 570+ 引用)
    • SMOTEBoost [Code] (2003, 1100+ 引用) ? 经典的工作
    • MSMOTEBoost(2011, 1300+ 引用)
    • RAMOBoost [Code] (2010, 140+ 引用)
    • RUSBoost[Code] (2009, 850+ 引用)

? 经典的工作

  • AdaBoostNC (2012, 350+ 引用)
  • EUSBoost (2013, 210+ 引用)
  • bagging-based
    • Bagging [Code] (1996, 23100+ 引用) ,Bagging 预测器;
    • OverBagging & UnderOverBagging & SMOTEBagging & MSMOTEBagging [Code (SMOTEBagging)] (2009, 290+ 引用) ,基于 Bagging 的随机过采样/随机混合重采样/ SMOTE / 修改版 SMOTE;
    • UnderBagging [Code] (2003, 170+ 引用) ,基于 Bagging 的随机欠采样;
  • 其他继承方法
  • EasyEnsemble & BalanceCascade[Code (EasyEnsemble)] [Code (BalanceCascade)] (2008, 1300+ 引用) , 使用 RUS 进行并行集成训练(EasyEnsemble) / 使用 RUS 进行级联集成训练,同时迭代地删除分类很好的样本(BalanceCascade); ? 简单但有效的方法
  • Self-paced Ensemble [Code] (ICDE 2020) ,用自适应协调分类困难训练不平衡数据的有效集成; ? 高性能和计算效率高,广泛适用于不同的分类器。
异常检测
  • Anomaly Detection Learning Resources,异常检测相关的书籍、论文、视频和工具箱。
  • 综述
    • Anomaly detection: A survey (2009, 7300+ 引用)
  • A survey of network anomaly detection techniques (2017, 210+ 引用)
  • 基于分类
    • One-class SVMs for document classification (2001, 1300+ 引用)
    • One-class Collaborative Filtering (2008, 830+ 引用)
    • Isolation Forest (2008, 1000+ 引用)
    • Anomaly Detection using One-Class Neural Networks (2018, 70+ 引用)
    • Anomaly Detection with Robust Deep Autoencoders (KDD 2017, 170+ 引用)

其他

不平衡数据集

上述数据集的集合来自 imblearn.datasets.fetch_datasets

其他资源
  • Paper-list-on-Imbalanced-Time-series-Classification-with-Deep-Learning
  • acm_imbalanced_learning ,2016年4月27日在德克萨斯州奥斯汀市举行的ACM不平衡学习讲座的幻灯片和代码;
  • imbalanced-algorithms ,基于python实现的算法学习不平衡的数据;
  • imbalanced-dataset-sampler ,一种(PyTorch)非平衡数据集采样器,用于过采样低频率类和欠采样高频率类;
  • class_imbalance ,通过 Jupyter Notebook 展示的二进制分类的类别不平衡;

最后,github 地址是:

https://github.com/ZhiningLiu1998/awesome-imbalanced-learning

另外,本人水平有限,所以对部分专业术语的翻译可能并不正确,没法做到非常完美,请多多包涵,谢谢!

最后,如果想查看完整版,以及可以点击论文或者代码链接的,可以查看我发表在知乎上的文章:

https://zhuanlan.zhihu.com/p/142692473

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-05-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 算法猿的成长 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据重采样
  • 成本敏感学习
  • 集成学习
  • 异常检测
  • 其他
    • 不平衡数据集
      • 其他资源
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档