如何计算分层K折交叉验证中不平衡数据集的假阳性率？_如何计算K折交叉验证中所有折叠的分类报告中的平均值？_K折交叉验证:如何在Stata中根据随机生成的整数变量过滤数据 - 腾讯云开发者社区

python、scikit-learn、cross-validation、k-fold、false-positive

下面几行是示例代码，我可以在其中计算准确率、精确度、召回率和f1分数。如何计算分层K折交叉验证的假阳性率(FPR)？

浏览 32提问于2021-11-14得票数 1

1回答

如果我已经在使用打击炮，是否有必要使用分层抽样？

cross-validation、smote

我已经用300 K以上的观测数据对我的不平衡数据集应用了SMOTE。使用分层的K-折叠交叉验证，而不仅仅是普通的K-折叠交叉验证(似乎不太可能，每个K-折叠训练集都会不平衡)，这是否仍然有意义？

浏览 0提问于2021-10-19得票数 0

回答已采纳

1回答

如何计算K折交叉验证的不平衡数据集的精确度、召回率和f1得分？

python、scikit-learn、random-forest、cross-validation、supervised-learning

我有一个包含二进制分类问题的不平衡数据集。我已经构建了随机森林分类器，并使用k折交叉验证10折。model_selection.KFold(n_splits=10, random_state=42)我拿到了10折的结果0.60333333 0.52333333 0.73 0.753333

浏览 1提问于2017-10-06得票数 12

回答已采纳

1回答

不平衡的学习问题-样本外与验证

python、keras

我正在训练三个班级，其中一个占主导地位的班级约占80%，其他两个班级甚至。我能够使用欠采样/过采样技术来训练模型，以获得67%的验证准确率，这对于我的目的来说已经相当不错了。问题是这种性能只存在于平衡的验证数据上，一旦我用不平衡的数据对样本外进行测试，它似乎就偏向于甚至类预测。我也尝试过使用加权损失函数，但在样本之外也没有什么乐趣。有没有好的方法来确保验证性能的<

浏览 6提问于2019-07-10得票数 0

1回答

如何在sklearn中对不平衡数据集进行交叉验证

python、machine-learning、scikit-learn、classification

我有一个高度不平衡的数据集，我想执行二进制分类。在阅读一些帖子时，我发现sklearn为不平衡数据集提供了class_weight="balanced"。所以，我的分类器代码如下。clf=RandomForestClassifier(random_state = 42, class_weight="balanced") 然后，我使用上面的分类器进行了10折交叉验证</

浏览 30提问于2019-03-31得票数 5

回答已采纳

1回答

Caret软件包:列车功能的分层交叉验证

r-caret、cross-validation

是否有一种方法来执行分层交叉验证时，使用火车功能，以适应一个大的不平衡的数据集模型？我知道直接k折叠交叉验证是可能的，但我的类别是高度不平衡的。我见过关于这个话题的讨论，但没有真正明确的答案。

浏览 0提问于2016-03-10得票数 11

回答已采纳

2回答

在scikit-learn中使用交叉验证时绘制精度-召回曲线

python、scikit-learn

我正在使用交叉验证来评估具有scikit-learn的分类器的性能，并且我想要绘制精度-召回率曲线。我在scikit-learn`s的网站上找到了来绘制PR曲线，但它没有使用交叉验证进行评估。在使用交叉验证时，如何在scikit学习中绘制精确召回曲线？我执行了以下操作，但我不确定这是否是正确的方法(psudo代码)： pr

浏览 2提问于2014-10-27得票数 7

1回答

使用训练数据评估Python图像分类精度

python、pandas、classification、confusion-matrix

我已经对一幅图像进行了分类，并将其相应的像素数据作为数据集输出。我也有一个相同类型的数据集，其样本数量不一致，称为训练数据。我希望使用用户自己创建的训练数据集对分类后的像素数据再次运行准确性评估。我曾尝试使用python spleen confusion_matrix和accuracy_score，但我的问题是这两个数据

浏览 21提问于2018-09-01得票数 0

1回答

不同尺寸多个测试集RMSE的比较

machine-learning、error-handling、rmse、model-evaluations

我拥有的数据是一个时间序列数据(股票回报)，我正在训练一个随机森林回归者。观察总数= 2499我的意思是，随着窗口大小的增加，测试集的大小会减少。窗口大小为500，测试集大小为1999。使用窗口大小700，

浏览 0提问于2021-08-13得票数 0

1回答

如何防止在CNN分类的10折交叉验证中，一个折叠比其他9个折叠执行得更差

python、keras、conv-neural-network、cross-validation、k-fold

我目前在Keras的2D CNN上工作，用于MRI分类。分类比大约是60/40，我有155名患者，每个患者都有一个由大约180个切片组成的MRI，CNN的输入是一张MRI图像的切片(256*256px)(所以总共输入了大约27900张图像，每个256*256我测试了不同的模型，并总是使用混洗分层10折交叉验证和EarlyStopping监视器对它们进行评估，它们都表现得非常好，大约95%到98%的验

浏览 100提问于2019-09-10得票数 0

1回答

关于如何处理不平衡数据的主要选项

xgboost、cross-validation、class-imbalance、smote、auc

据我所知，大致上有三种处理二进制不平衡数据集的方法：随机创建k折叠交叉验证样本(或者更好地使用分层k折叠：https://scikit-learn.org/0.16/modules/generated选项2 随机创建k折叠交叉验证样本(或者更好地使用分层k折叠创建k折叠

浏览 0提问于2020-06-07得票数 2

1回答

kNN在垃圾邮件分类中的改进

matlab、machine-learning、classification、spam、knn

数据集以词袋表示法表示，它包含约x。10000个观测值，约900个功能。Matlab是我用来处理数据的工具。在过去的几天里，我尝试了几种机器学习方法:支持向量机、贝叶斯和kNN。在我看来，当涉及到最小化假阳性率时，kNN的性能优于SVM和贝叶斯。通过10倍交叉验证，我使用k=9和曼哈顿距离得到了0.0025的假阳性率。海明距离在相同的<

浏览 2提问于2014-03-22得票数 0

2回答

随机森林的手动k-折叠交叉验证

python、random-forest、cross-validation、k-fold

我正在使用随机森林分类器，并且我想执行k折交叉验证。我的数据集已经被分成10个不同的子集，所以我想用它们来做k折交叉验证，而不是使用随机拆分数据集的自动函数。这在Python中是可能的吗？

浏览 8提问于2021-03-08得票数 0

1回答

用朴素贝叶斯分类器可疑的低假阳性率？

machine-learning、classification、svm、supervised-learning、naive-bayes-classifier

我正在执行钓鱼URL分类，我正在比较平衡的2类数据集(合法URL，phishy )上的几个ML分类器。随机森林分类器、Ada Boost分类器、多树分类器和K分类器的分类准确率达到90%左右，假阳性率达到11~12%。(图)事情是这样的。我也尝试过高斯铌

浏览 0提问于2020-05-12得票数 0

回答已采纳

3回答

训练/测试尺寸和偏差

machine-learning、logistic-regression、supervised-learning

我的数据集上的信息如下：(第80/20号规则)test size = 56 # of events in test = 8 我想我的分类器和结果可能会因为这个比例不相等而受到影响。你个人对这些数据有何看法？

浏览 0提问于2020-08-30得票数 2

回答已采纳

3回答

如何使用tensorflow执行k折交叉验证？

python、tensorflow、cross-validation、train-test-split

我现在的情况是，我将所有数据都放在一个CSV文件中，而不是分开，并且我想对这些数据应用k折交叉验证。tf.contrib.learn.datasets.base.load_csv(filename="mydata.csv",如何使用与IRIS示例相同的多

浏览 0提问于2016-09-28得票数 26

1回答

R H20 -分层抽样和非I.D.交叉验证。行

r、cross-validation、h2o

我正在使用H2O来分析数据集，但我不知道如何正确地对数据集执行交叉验证。我有一个不平衡的数据集，所以我希望执行分层交叉验证(如果输出变量用于平衡每个分区上的组)。然而，最重要的是，我还有一个问题，就是我的许多行都是重复的(一种实现权重而不实际拥有权重的方法)

浏览 2提问于2019-01-02得票数 0

回答已采纳

1回答

使用keras进行K折交叉验证

keras、cross-validation

由于神经网络的运行时间很长，似乎k-折交叉验证在convn网络中并没有得到重视。我有一个很小的数据集，我对使用给定的示例进行k-折交叉验证很感兴趣。有可能吗？谢谢。

浏览 3提问于2016-12-19得票数 12

6回答

帮助理解交叉验证和决策树

algorithm、machine-learning、decision-tree

我一直在阅读决策树和交叉验证，我理解这两个概念。但是，我很难理解交叉验证，因为它涉及决策树。基本上，交叉验证允许您在数据集相对较小时在培训和测试之间进行交替，以最大限度地提高您的错误估计。一个非常简单的算法是这样的：决定了您想要的折叠数(k) 将数据集细分为k折叠、，使用k-1折</

浏览 0提问于2010-02-22得票数 37

回答已采纳

1回答

机器学习中如何利用K次验证进行欠采样

python、machine-learning

我正在为我的项目rn处理一个高度不平衡的数据集，为了简单起见，我将在这里给出一个简单的例子:数据集有20‘0和80’1的数，所以总数是100。假设我已经使用under-sampling进行分层拆分(X_train.shape为80，X_test.shape为20)，那么我的问题是如何在列车数据集中同时使用K-折叠验证来实现。我最

浏览 2提问于2021-02-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云