用于处理cat boost的不平衡数据

文章/答案/技术大牛

发布

3回答

python-3.x、catboost

catboost包中有没有像我们过去在python的xgboost包中一样的"scale_pos_weight“参数？

浏览 8提问于2017-08-12得票数 5

回答已采纳

2回答

宏作为预处理指令的参数

c++、macros、c-preprocessor

面对是否有可能在预处理器中选择#include的问题，我立即认为不可能。参数化宏是否允许用于任何预处理指令？(#define/#undef除外) 有人能参考哪些地方允许这样做并进行总结吗？对于好奇的人来说，为了简单起见，可以使用Boost.Prepr

浏览 2提问于2009-11-15得票数 3

回答已采纳

1回答

建立一个基于不平衡数据的模型可以吗？

machine-learning、scikit-learn、imbalanced-data

背景-我正在处理的数据集是高度不平衡的，类的数量是543。数据以日期为界。经过5年的研究，我发现这种不平衡是固有的，而且是持久的。模型将得到的测试数据也将以一个日期范围为界，并且也会出现类似的不平衡。造成数据不平衡的原因是消费金额不同，产品受欢迎程度不同。处理不平衡会对企业

浏览 0提问于2020-07-10得票数 3

1回答

Sagemaker XG-Boost (objective=reg:logistic)无法处理高度不平衡的数据集

machine-learning、logistic-regression、xgboost、amazon-sagemaker

我正在AWS Sagemaker上处理信用欺诈数据集。数据集高度不平衡。它只有0.1732%的欺诈交易。我想使用来自sagemaker的XG-Boost来预测一个给定的交易是欺诈性的(1)还是非欺诈性的(0)。当我将超参数中的目标函数设置为'multi:softmax‘和类别数= 2时，它给出了很好的结果，召回率为85%。当我将目标函数设置为'reg:logis

浏览 8提问于2019-11-13得票数 1

6回答

Python:处理python机器学习中的不平衡类

machine-learning、python、data-mining、dataset、pandas

，但我的数据以类似的方式分发了数以千计的记录。为了使我的模型具有普遍性，我随机删除了相同百分比的数据，这些数据属于1,2和3值。我按Col5中的每个值分组，然后删除某些百分比，从而减少了记录的数量。现在，我可以看到一定程度的提高的准确性，也合理地增加了预测值4在混淆矩阵。这是否是正确的处理方法(从模型有偏见的组中随机删除数据)

浏览 0提问于2016-04-25得票数 11

2回答

带有分类数据的随机森林只预测一个类别内的数据

python、scikit-learn、regression

我使用的数据有分类数据，我用LabelBinarizer编码，所以我的数据看起来像这样：123 0 1 0 0 每行只能有一个给定的类别。我想根据X中的项目数据数组来预测新项目的评级y。用户的最佳拟合项目的结果如下所示： Id Name Categ

浏览 0提问于2019-12-12得票数 1

2回答

不平衡类的离群点检测

python、class-imbalance、anomaly-detection、outlier

我必须建立一个预测模型，根据其他一些数值数据来预测一个布尔变量韩元/丢失变量，并进一步找出“Won”观测值的特征。然而，在我的数据集中‘韩元’的数量是0.05%。我试过过抽样和过抽样，但都没成功。即使我取了等量的“韩元”和“失落的”，这个模型对于其余的“丢失”值也是不准确的。我也试过举重，但效果不太好。理想情况下，我认为我必须把一个非常高的重量'Won‘。所以现在我试着用另一种方式来看待它，并对

浏览 0提问于2016-05-05得票数 3

回答已采纳

4回答

C处理器前字符串串接

c、c-preprocessor

如何组合预定义的C值来生成字符串。#define ICON_FILE "../icons/"##APP_NUMBER##".ico" 1000 ICON ICON_FILE我刚得到的最接近的就是这样做： #define STR(x) #x

浏览 7提问于2012-11-22得票数 4

1回答

aov是否适用于不平衡的数据集。...provides a wrapper to lm for fitting linear models to balanced or unbalanced experimental designs的说法但后来它说的是aov is designed for balanced designs, and the results can be hard to interpret without balance我应该如何对R中不平衡的<

浏览 2提问于2010-04-13得票数 8

回答已采纳

1回答

在数据不平衡的管道中进行交叉验证的正确方法

machine-learning、scikit-learn、cross-validation、imbalanced-data、smote

对于给定的不平衡数据，我创建了一个不同的标准化管道&一个热编码。ColumnTransformer( ('num', numeric_transformer, numeric_features), ('classifie

浏览 5提问于2020-06-10得票数 2

回答已采纳

1回答

变异变元

c、c-preprocessor

我想要一个函数/定义，它使用各种参数包来扩展在某种模式中的每个参数的变异，例如：foo(1,2,3,4,5);bar(modifier_1,modifier_2,如果是这样的话，是怎么做的？

浏览 0提问于2017-11-16得票数 2

回答已采纳

1回答

头文件序列的预处理器循环

c++、boost-preprocessor

是否可以在预处理器循环中包含一个文件序列：file1,file2,file3？#include <boost/preprocessor/iteration/local.hpp> /**/ #d

浏览 6提问于2013-12-18得票数 3

1回答

LibSVM的降采样技术

weka、libsvm

我有一个不平衡的训练数据，我将使用它来训练SVM分类器。我已经尝试了几种处理不平衡数据的技术，例如对成本敏感的学习和采样技术。对于采样技术，我需要找到向上采样和向下采样的方法，而不是随机方法。可用于上采样和下采样的技术有哪些？我使用weka和LibSVM进行分类。

浏览 3提问于2014-12-10得票数 0

3回答

用宏构造#include指令的路径

c++、macros、include、boost-preprocessor

我希望包含由宏动态创建的文件路径，用于程序中与目标配置相关的部分。不起作用的例子：#include <boost/preprocessor.hpp> #define File filename.h#define MakePath(f) BOOST_PP_STRINGIZE(BOOST_PP_CAT(Dir,f)) #de

浏览 8提问于2015-08-18得票数 15

回答已采纳

1回答

克利夫兰数据集分类的平衡问题

machine-learning、scikit-learn、classification、multilabel-classification、multiclass-classification

我质疑过著名的克利夫兰心脏病数据集将其对象命名为的方式此数据集非常不平衡(“无疾病”类的许多对象)。我注意到，使用此数据集的许多论文用于组合所有其他类，并将其简化为二进制分类(疾病与无疾病)。是否有其他方法来处理这个不平衡的类问题，而不是减少类的数量以获得一个分类器的好结果？

浏览 0提问于2019-07-23得票数 0

回答已采纳

1回答

当使用过抽样和简历对模型进行培训时，我是否需要使用AUPRC报告不平衡数据集的分类结果？

machine-learning、classification、class-imbalance、performance、imbalanced-learn

我正在研究一个二进制分类问题，其中数据集有大约5%的正类样本。我拆分了数据集，70%用于培训，30%用于测试。我只使用了一次测试数据来报告模型的性能。由于这种不平衡，我在培训数据集中使用了SMOTE对少数族裔类进行重采样。此外，我还根据如何提升样本、简历和网格搜索的建议，使用CV和网格搜索来优化模型性能，以避免数据泄漏。假设我正确地处理了培训过程，我想知道如何在测试数据</

浏览 0提问于2022-08-17得票数 0

1回答

如何用分隔符/分隔符连接/加入__VA_ARGS__？

c++、macros、c++17

我希望将变量宏扩展到另一个宏，该宏接受单个参数，这是通过将变量参数与分隔符/分隔符(例如"_")联接而形成的。就像这样：它扩展到我知道有用于处理变量参数的__VA_ARGS__，以及用于级联的##。我如何在一起使用它们来实现我想要的(最好使用C++17和旧的语言特性，而没有诸如Boost

浏览 9提问于2022-11-20得票数 0

1回答

不平衡数据集分类的步骤是什么？

python、machine-learning、classification

我需要任何熟悉我面临的问题的人的帮助。我想使用SVM、随机森林和深度神经网络(DNN)对两个不同的数据集进行分类。我的一个数据集是平衡的，另一个数据是高度不平衡的。下面是我的数据集的图像，它对于分类是不平衡的。 ? 我想要比较用于这两个数据的所有机器学习的<

浏览 20提问于2019-04-12得票数 0

3回答

在机器学习中数据集不平衡的情况下，AUC是比准确性更好的指标吗?如果不是，那么哪个是最好的指标？

python、machine-learning、artificial-intelligence、roc、auc

auc在处理不平衡数据方面是否更好。在大多数情况下，如果我处理的是不平衡的数据，那么准确性并不能给出正确的想法。尽管准确率很高，但模型的性能很差。如果不是auc，这是处理不平衡数据的最好方法。

浏览 146提问于2019-02-26得票数 0

回答已采纳

2回答

处理多数类丢失的数据

classification、dataset、class-imbalance、missing-data

我正在使用一个不平衡(10:1)的数据集进行分类。我还在某些列中丢失了一些数据。如果我把它们全部丢弃，我仍然有5:1的比率，所以我想我有能力抛弃它们？丢弃缺少值的行，因为数据集已经不平衡。使用其余行进行欠采样。很抱歉问你这个问题，低年级学生。

浏览 0提问于2021-12-18得票数 1

点击加载更多