在机器学习中处理不平衡数据？_机器学习数据预处理_如何在机器学习数据集中打击不平衡的类 - 腾讯云开发者社区

machine-learning、data

在生活中，一些事件是罕见的，大多数情况是正常的。因此，我想知道，为了发现罕见的案例，我们是否应该使用一个不平衡的数据集，其中包含更多的历史罕见案例？使用这个原始数据集，我假设模型将倾向于更好地识别正常情况(因为数据中有更多的正常情况)。如果使用一个平衡的数据集，即好信用的数量等于坏信用的数量，那么最后一个模型将很好地预测“好”和“坏”。但是，如果我们想使用机器学习来识别罕见的事件，例如在这种情况下，

浏览 0提问于2020-11-06得票数 0

回答已采纳

1回答

在机器学习中处理不平衡数据？

machine-learning、data-science、data-analysis

在数据中，如果目标特征不平衡，比如2%的好到98%不好，2%是500条记录，如果我使用这500条坏记录加上98%中的500条好记录，并在机器学习中训练模型，会发生什么？我的问题是，该模型是否能很好地推广500 + 500数据，因为它是50:50好与坏的比例？我选择了基于多次迭代的500条好的记录，以获得高精度，因为只有1000条记录在机器中运行得更快，以获得输出。

浏览 10提问于2019-03-18得票数 0

2回答

机器学习的不平衡训练数据(CNNs / RNNs)

machine-learning、tensorflow、conv-neural-network、recurrent-neural-network

我发现，当我在不平衡的训练数据上训练一些CNN和RNN时，我的训练收敛得相对较快，准确率大约是较大类别的百分比(因此，如果有80%是的例子，它可能总是会输出是)。我觉得这是可以解释的..这个解决方案是局部最优的，网络在训练时不能逃脱它。这种解释正确吗?这种行为在这些情况下最常见吗？我能对它做些什么呢？合成更多的训练数据以使集合更均匀？还有什么？非常感谢!

浏览 4提问于2017-04-22得票数 1

1回答

回归-不平衡范畴特征

regression、categorical-data、class-imbalance

我有一个数据集，它有一些不平衡的分类特征。我想要建立一个回归模型来预测标签使用机器学习(ML)。如何处理分类变量中的数据不平衡，以避免ML回归模型中的任何偏差？

浏览 0提问于2019-01-28得票数 1

3回答

在Auto-Sklearn中处理多类分类的不平衡数据集的最佳方法

python、machine-learning、scikit-learn、multiclass-classification

我正在使用Auto-Sklearn，并且有一个包含42个严重不平衡的类的数据集。处理这种不平衡的最好方法是什么？据我所知，在机器学习中存在两种处理不平衡数据的方法。要么使用重采样机制，如过采样或欠采样(或两者的组合)，要么在算法级别上通过选择需要深入了解Auto-Sklearn中使用的算法的归纳偏差来解决它。我不太确定如何处理这个问题。有没有可能直接在Auto-S

浏览 2提问于2020-02-21得票数 2

1回答

用mlr3处理类不平衡问题

r、pipeline、imbalanced-data、mlr3

最近有人建议我将机器学习框架改为mlr3。但我发现过渡比我一开始想象的要困难一些。在我目前的项目中，我正在处理高度不平衡的数据，在培训我的模型之前，我想对这些数据进行平衡。我发现了本教程，它解释了如何通过管道和图形学习者来处理不平衡：我在测试数据

浏览 1提问于2021-02-16得票数 3

回答已采纳

3回答

基于libSVM的支持向量机数据不平衡

machine-learning、svm、libsvm

当我使用由75%的“真”标签和25%的“假”标签组成的不平衡数据集时，我应该如何在libSVM中设置我的伽马和成本参数？由于数据不平衡，所有预测的标签都设置在“True”上，我得到了一个持续的错误。如果问题不是关于libSVM，而是关于我的数据集，我应该如何从理论机器学习的角度来处理这种不平衡？*我使用的特性数量在4-10之间，而且我有一小部分250个数据点。

浏览 3提问于2013-09-30得票数 7

回答已采纳

1回答

Keras分类交叉学习将所有内容放在一个类别中

tensorflow、machine-learning、keras、deep-learning

我在遵循，但遇到了一个问题，即学习与我训练的网络停滞不前，在一个次优解决方案中，将所有图片放在一个类别中。我的第一个想法是，这是由于训练图片在类别()中的分布不平衡，所以我删除了足够多的训练图片，以便每个类别中保留相同数量的图片。然而，问题并没有改变。我的模型在训练后仍然将所有图片放在一个类别中。任何想法都是非常受欢迎的。=] - 1s 7ms/sample - loss: 1.9451 - accuracy: 0.1485

浏览 1提问于2020-01-17得票数 0

2回答

机器学习还是生存分析？

machine-learning、classification、data-cleaning、preprocessing、survival-analysis

我有点困惑于-由于数据高度不平衡，我应该考虑哪些类型的机器学习模型？几天前，我读到了关于生存分析的文章，现在我陷入了一个难题:问题是生存分析还是机器学习？我目前正在使用BackBlaze(https://www.backblaze.com/b2/hard-drive-test-data.html

浏览 0提问于2016-07-20得票数 3

1回答

机器学习中的偏斜类和不平衡类

machine-learning、data-analysis、data-science

机器学习中的偏斜类和不平衡类之间有什么区别吗?还是两者在不同的术语中是相同的？

浏览 8提问于2016-11-15得票数 2

回答已采纳

1回答

回归任务中如何处理不平衡的范畴变量？

machine-learning、regression、data、outlier、imbalance

我想用几种机器学习算法来预测房地产价格。我的数据集包含数字和分类预测器。我已经排除了数值变量的离群值。现在，我想知道如何处理分类变量的“异常值”(即不平衡类)，但是我在这个主题上找不到任何东西。我是否必须处理不平衡的类(离群值)，还是只与分类任务相关？附带注意，如果重要的话:我使用一个热编码对分类变量进行编码。

浏览 0提问于2022-07-15得票数 0

1回答

不平衡数据的回归模型性能差

neural-network、regression、loss-function、class-imbalance

我的数据集的特殊性在于它具有类似于目标值的指数分布(不平衡)。因此，模型似乎只输出小于2的值(如果范围是的话)，它绝对忽略较大的目标值，后者在数据集中的性能较小。在这种情况下，如何改进模型的结果？例如，当涉及多类分类时，我们可以对较小类上的错误进行权衡，以提高不平衡数据的性能。在回归方面有什么诀窍吗？哪些损失函数是有用的？看来，MSE损耗函数比RMSE更好。有一篇关于不平衡回归(http://proceedings.mlr.press/v7

浏览 0提问于2019-07-26得票数 4

回答已采纳

2回答

非平衡数据集的重采样:测试集也应该重放吗？

training、class-imbalance

抱歉，这可能是一个基本的问题，但我一直未能找到一个明确的答案，无论是在文学或互联网上。在处理不平衡数据集时，一种可能的策略是对少数类或多数类进行重采样，人为地生成一个可用于训练机器学习模型的平衡训练集。有人能澄清一下这种

浏览 0提问于2019-08-20得票数 4

回答已采纳

2回答

不平衡数据集的性能较差

svm、class-imbalance、matlab

由于数据集高度不平衡，我使用了支持向量机，并应用了加权方法( MATLAB)。我把权重与每堂课的数据频率成反比。这是在训练中完成的。我使用了10倍交叉验证进行培训。问题:我再次使用更多的数据点进行训练。然后，我在一个新的未见测试数据集B上运行经过训练的模型，这是在培训期间从未见过的。这是在B上测试的混淆矩阵。我没有在B上使用任何权重或平衡方法。什么可能是错误的，如何克服这个问题？

浏览 0提问于2018-12-12得票数 1

3回答

不平衡数据的二进制分类

python

在数据挖掘中，我使用机器学习算法来解决二进制分类问题。好样品与坏样品的比例高达500:1。可以使用哪些方法来解决不平衡数据的二进制分类？

浏览 2提问于2019-10-15得票数 0

5回答

scikit学习的不平衡

python、scikit-learn

我在Python程序中使用scikit-learn来执行一些机器学习操作。问题是我的数据集存在严重的不平衡问题。有没有人熟悉scikit-learn或python中不平衡的解决方案？在Java中有SMOTE机制。在python中有类似的东西吗？

浏览 1提问于2013-02-25得票数 40

4回答

不平衡类:星火MLLib中ML算法的class_weight

machine-learning、apache-spark、class-imbalance、weighted-data

在python学习中，有多种算法(例如回归、随机森林.等)具有处理不平衡数据的class_weight参数的。谢谢!

浏览 0提问于2016-12-07得票数 8

3回答

用于分类的不平衡数据

algorithm、machine-learning、graphlab

我有一个由大约10^6条目组成的数据集。但问题是数据是Imbalance的。safe_loans_raw = loans[loans[target] == 1] risky_loans_raw = loans[loans[target] == -

浏览 34提问于2016-08-30得票数 1

1回答

Scikit-学习SVC总是在随机数据交叉验证上给出0的准确性。

python、python-2.7、random、scikit-learn、svm

在下面的代码中，我创建了一个大小为50的随机示例集，每个样本集有20个特性。然后生成一个随机目标向量，由半真值和半假值组成。所有的值都存储在Pandas对象中，因为这模拟了以这种方式提供数据的真实场景。然后，我在一个循环中执行手动退出操作，每次选择一个索引，删除其各自的数据，使用默认的SVC对其余的数据进行拟合，最后对左边的数据运行一个预测。现在，奇怪的部分-我希望得到一个大约50%的准确性，因为这是随机数据，但我几乎总是得到准确的0

浏览 3提问于2016-04-26得票数 5

回答已采纳

3回答

处理R中的不平衡数据-错误消息

r、machine-learning、decision-tree

我正在尝试处理R中不平衡的数据集。我传递了训练和测试集的csv文件，我试图预测，但预测只对前10个实例运行。输出消息是:预测代码exit with value 1谢谢

浏览 1提问于2016-03-15得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

模型由于数据不平衡而倾斜

在机器学习中处理不平衡数据？

机器学习的不平衡训练数据(CNNs / RNNs)

回归-不平衡范畴特征

在Auto-Sklearn中处理多类分类的不平衡数据集的最佳方法

用mlr3处理类不平衡问题

基于libSVM的支持向量机数据不平衡

Keras分类交叉学习将所有内容放在一个类别中

机器学习还是生存分析？

机器学习中的偏斜类和不平衡类

回归任务中如何处理不平衡的范畴变量？

不平衡数据的回归模型性能差

非平衡数据集的重采样:测试集也应该重放吗？

不平衡数据集的性能较差

不平衡数据的二进制分类

scikit学习的不平衡

不平衡类:星火MLLib中ML算法的class_weight

用于分类的不平衡数据

Scikit-学习SVC总是在随机数据交叉验证上给出0的准确性。

处理R中的不平衡数据-错误消息

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐