如果我使用“保持”重采样，如何访问列车集的度量(例如：“classif.acc”或其他度量)？

r、mlr3

我正在学习R中用于机器学习的mlr3包。我使用“保持”重采样将数据分成训练集和测试集，我如何才能获得训练集的度量？即使我将"predict_set“指定为"train”，它似乎也只给出了测试集的度量。INFO [12:28:49.941] Applyin

浏览 30提问于2020-10-22得票数 1

1回答

关于如何处理不平衡数据的主要选项

xgboost、cross-validation、class-imbalance、smote、auc

对于每一个折叠分别在“训练”和“测试”集上应用一种重采样技术(上采样、下采样或两者的组合)。使用“传统”的评价标准:例如，ROC曲线的AUC (TP率对FP率)。使用“替代”度量来评估:例如，精确召回曲线的AUC或类似F分数(精确和回忆的调和平均值)之类的指标。我<

浏览 0提问于2020-06-07得票数 2

2回答

多分类模型中的抽样大小是否重要？

predictive-modeling、multiclass-classification、class-imbalance、performance、sampling

我正在研究一个多类分类模型，其中很少有类与其他类相比拥有更少的数据。我使用随机抽样技术从人口中创建一个样本，使每个类别的比例与人口的比例相等。例如，A类在总体中有400条记录，B类在总体中有100条记录，然后在进行随机抽样时，我正在创建一个样本，其中A类和B类的记录比例为4:1。我观察到的趋势是通过改变某一类的样本大小(保持类间比例不变)，导致模型性能(准确性、精

浏览 0提问于2019-11-27得票数 3

1回答

欠采样条件下高度不平衡数据的交叉验证

machine-learning、scikit-learn、cross-validation、sampling、class-imbalance

在我的问题中，我处理的是一个高度不平衡的数据集，比如每一个正面类都有10000个负值。一种正常的训练模型的方法是对数据进行欠采样。交叉验证实际上将欠采样的列车组分割成K段，并将其中一个折叠作为测试集(现在是欠采样的测试集)。我认为对于模型评估，我们实际上需要计算非抽样测试集感兴趣的</

浏览 0提问于2019-02-04得票数 12

回答已采纳

4回答

不平衡数据集分类的训练、测试分割

python、classification、training

我有一个做二进制分类的模型。

浏览 0提问于2018-06-08得票数 20

回答已采纳

1回答

当使用KNN时，我如何知道使用Minkowski距离的顺序？

machine-learning、k-nn

总的来说，我正在学习KNN和ML。我知道KNN通常使用二阶Minkowski距离(Eucledian距离)，但我假设它也使用其他阶数。但是，根据模型的一般性能选择更高的阶数有什么好处呢？会更快吗？噪音水平会影响我下订单的决定吗？我怎么知道，由于这个和这个条件，我必须使用一个更高的Minkowski距离？

浏览 0提问于2020-01-29得票数 0

1回答

SMOTE如何处理仅包含范畴变量的数据集？

machine-learning、deep-learning、neural-network、classification、smote

我有一个977行的小数据集，类比例为77:23。我的输入变量本质上是绝对的。下面是我试过的。假设我们没有age和salary信息( b)分成火车和试验(用stra

浏览 0提问于2022-02-20得票数 6

回答已采纳

3回答

200多个类中高度不平衡的数据集

machine-learning、multiclass-classification、class-imbalance、sampling

我有一个文本数据集，在这里，我需要训练一个分类器来将标题分类。数据集形状超过575000。这里有256个目标类。问题是数据集是高度不平衡的。考虑目标值计数是按递减顺序排列的。为了处理不平衡的数据集，对多类(比如3类)进行过采样和欠采样。但在我的例子中，有256个类。如何在这种情况下对数据集进行采样？如

浏览 0提问于2019-09-28得票数 2

1回答

处理极不平衡且相关性极差的数据集

python、scikit-learn、classification

我正在处理一个困难的数据集，因为这些类既高度不平衡，又非常不相关。该集合有96,000个值，其中少于200个值是1。我尝试了几种方法，每种方法的精确度和准确度都很高，但是只有少数(小于5)的值被归类为1。我想知道是否有一种方法可以迫使机器分类更多的1。如果我能在25%的时间内正确分类，这将是一个很好的结果。我尝试使用随机森林的&

浏览 3提问于2018-11-18得票数 1

1回答

创建分类数据集，一个好的数据集应该达到多大的平衡？

classification、dataset、binary-classification、twitter

我正在创建一个有4个类的数据集，其中有50K行，我已经获得了86%的准确率，0.85的预测，0.86的召回和0.71的F1-分数支持向量机上的80,20分裂。我必须在一篇研究论文中公布这个数据集，但我关心的是班级百分比的年龄分布。例如，类1比类4有更多的数据。(数据集注释已经完成) Dataset是从Twitter上刮来

浏览 0提问于2022-01-06得票数 0

1回答

产品预测异常

time-series、unsupervised-learning、prediction、anomaly-detection、semi-supervised-learning

我有一个关于异常预测的问题。如果你能给我看一些关于这类问题的论文，或者给我一些关于这个问题的提示，我将非常感激。数据如下:我有100000多个产品，对于每一个产品，我有120个特征，测量了1000次(

浏览 0提问于2022-03-15得票数 0

1回答

WEKA分类器评价

classification、weka

我试着在WEKA中使用10倍的CV来评估分类器的性能。我有三万二千张唱片，分成三个不同的类别，"po"，"ng"，"ne“。po：~950 ng：~1200 ne：~30000 如何分割用于执行简历的数据集？我是否正确地假设，对于简历，我应该有一个大致相同的记录为每一个班级，以防止不公平的加权对"ne“类

浏览 4提问于2016-04-27得票数 0

回答已采纳

2回答

如何通过ADOMD.NET获取KPI值隐藏度量？

c#、sql-server、ssas、mdx、adomd.net

我正在尝试使用SQL Server/SSAS2008通过ADOMD.NET (使用MDSCHEMA行集)访问KPI元数据。当我获得一个给定的KPI值字段时，例如在Adventure中，它会返回我认为是与KPI值相关联的隐藏度量(例如，Measures.Net收入值)。但该值具有与其关联的实际MDX表达式。我已经尝试通过ADOMD获取不可见的</e

浏览 6提问于2009-09-30得票数 3

回答已采纳

4回答

随机森林异常高的精确度，有可能吗？

machine-learning、python、classification、random-forest

我需要你的帮助，以发现我的模型的缺陷，因为它的准确性(95%)是不现实的。# Splitting the dataset into the Training set and Test set from sklearn.cross_validation

浏览 0提问于2018-11-06得票数 1

回答已采纳

2回答

在Keras中，x_train和x_test有什么区别？

python、keras、conv-neural-network

我看了几个教程来深入研究Keras，以便使用卷积神经网络进行深入学习。在本教程(以及Keras的官方文档中)中，MNIST数据集的加载方式如下：然而，没有解释为什么我们有两个元组的数据。我的问题是:什么是x_train 和 y_train ，以及它们与 x_test 和 y

浏览 0提问于2017-09-29得票数 13

回答已采纳

2回答

非平衡训练集的处理与实际数据的比较

classification、class-imbalance、supervised-learning

我正在致力于一个欺诈检测模型，防止欺诈用户使用我们的解决方案。我的模型表现很好，但我的问题是，该模型表现得越好，我的培训集中的欺诈性用户就越少，因此它与现实世界的数据相比变得不平衡。为了应对这一问题，我们引入了一个随机过程，允许一些用户通过而不被打分，这样我们就可以继续从无偏见的数据中学习。理想情况下，我应该只在这个不偏不倚的数据集上训练

浏览 0提问于2021-10-08得票数 5

3回答

可重复的例子，其中平衡训练数据明显提高了准确性。

class-imbalance、smote、imbalanced-learn

我在统计SE上问了这个问题，但是没有答案，即使有一个小小的奖金，所以我在这里询问是否可以给出任何例子。有人能给出真实世界(最好不是合成的)数据集的可再

浏览 0提问于2023-04-18得票数 4

2回答

使用Tensorflow数据集和Keras Tuner处理高度不平衡的数据集

python、tensorflow、keras、imbalanced-data、keras-tuner

我有一个高度不平衡的文本文档数据集(3%是，87%不)，包含一个标题和抽象特性。我已经将这些文档转换为带有填充批的tf.data.Dataset实体。现在，我正在尝试使用深度学习来训练这个数据集。使用model.fit()在TensorFlow中，您可以使用class_weights参数来处理类的不平衡，但是，我正在使用keras-tuner库寻找最佳参数。在它们

浏览 3提问于2020-10-12得票数 1

1回答

TimeSeriesSplit -如何聚合(或非筒仓)分裂？

python、scikit-learn、time-series

网上有很多例子显示如何使用TimeSeriesSplit创建多个培训/测试集。然而，他们并没有展示如何在实践中真正地聚合这些信息。例如，这是从scikit学习文档中提供的：X = np.array([[1, 2], [3, 4：火车:0 1测试:2列车:0 1 2 3测试:4 列车:0 1

浏览 0提问于2019-03-18得票数 0

回答已采纳

2回答

不平衡数据集评价指标的解释

machine-learning、classification、class-imbalance

我目前正在处理一个严重不平衡的数据集的分类问题。更具体地说，它是一个包含大约290 k行数据的欺诈检测数据集，0类(非欺诈)的分布率为99.8%，1类(欺诈)的分布率为0.17%。我一直使用XGBoost，随机森林和LightBGM作为我的预测模型。我还尝试以不同的方式运行这些模型，方法是调优类权重并重新对数据集进行重<

浏览 0提问于2023-04-04得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

关于如何处理不平衡数据的主要选项

多分类模型中的抽样大小是否重要？

欠采样条件下高度不平衡数据的交叉验证

不平衡数据集分类的训练、测试分割

当使用KNN时，我如何知道使用Minkowski距离的顺序？

SMOTE如何处理仅包含范畴变量的数据集？

200多个类中高度不平衡的数据集

处理极不平衡且相关性极差的数据集

创建分类数据集，一个好的数据集应该达到多大的平衡？

产品预测异常

WEKA分类器评价

如何通过ADOMD.NET获取KPI值隐藏度量？

随机森林异常高的精确度，有可能吗？

在Keras中，x_train和x_test有什么区别？

非平衡训练集的处理与实际数据的比较

可重复的例子，其中平衡训练数据明显提高了准确性。

使用Tensorflow数据集和Keras Tuner处理高度不平衡的数据集

TimeSeriesSplit -如何聚合(或非筒仓)分裂？

不平衡数据集评价指标的解释

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐