sklearn.metrics中的AUC分数是多少？_来自xgb和sklearn.metrics的不同AUC分数_LightGBM :模型拟合期间的验证AUC分数与相同测试集的手动测试AUC分数不同 - 腾讯云开发者社区

python、machine-learning、scikit-learn

我正在对不平衡的数据集执行二进制分类任务。现在，使用：sklearn.metrics.roc_auc_score(y_true, y_score, average='macro')，和我计算ROC，有两个问题：我不确定平均macro是否受类不平衡的影响，在这种情况下(对不平衡类进行分类时)最佳平均是什么？有没有参考的方法，说明如何科学-学习计算中华民国AUC与不同的平均论点？

浏览 2提问于2016-09-19得票数 0

2回答

不平衡数据集评价指标的解释

machine-learning、classification、class-imbalance

我目前正在处理一个严重不平衡的数据集的分类问题。更具体地说，它是一个包含大约290 k行数据的欺诈检测数据集，0类(非欺诈)的分布率为99.8%，1类(欺诈)的分布率为0.17%。我一直使用XGBoost，随机森林和LightBGM作为我的预测模型。我还尝试以不同的方式运行这些模型，方法是调优类权重并重新对数据集进行重采样，以使其达到平衡的规模。此外，我使用F1评分、ROC-AUC评分和精确召回曲线作为我的主要度量标准，因为其他指标似乎不能代表不平衡数据集上的结果。然而，在我的训练数据上，我仍然显得过于贴切。在所有场景中，我的训练集的F1-分数、ROC-AUC分数和精确召回曲线的AP值要么

浏览 0提问于2023-04-04得票数 0

2回答

机器学习中的评价指标

r、machine-learning、classification、data-mining

下面以一个二分类问题为例，如果我在训练中使用“准确性”作为度量标准，并使用ROCR包找到AUC分数，这将是如何逻辑的？或者我应该始终使用"ROC“作为计算AUC分数的度量标准？数据集不平衡。 control <- trainControl(method="cv", number=5) fit <- train(diabetes~., data=PimaIndiansDiabetes, method="gbm", metric="Accuracy", trControl=control)

浏览 0提问于2016-10-20得票数 1

1回答

处理不平衡数据集的超调xgboost

xgboost、class-imbalance、hyperparameter-tuning

我的训练数据有非常不平衡的{0:872525,1:3335}和100个特性。我使用xgboost建立分类模型，并采用bayessian优化方法在范围{learning rate:(0.001,0.1), min_split_loss:(0.10), max_depth:(3,70), min_child_weight:(1:20), max_delta_step:(1,20), subsample:(0:1), colsample_bytree:(0.5,1), lambda:(0,10), alpha:(0,10), scale_pos_weight:(1,262), n_estimator

浏览 0提问于2021-02-27得票数 0

3回答

什么是AUC - ROC曲线？

metric、auc

AUC - ROC曲线是对不同阈值设置下的分类问题的性能度量.ROC是一条概率曲线，AUC代表可分性的程度或尺度。 Roc和AUC一样吗？

浏览 0提问于2019-12-21得票数 2

1回答

利用Jaccard系数预测网络中可能的链路

python、networking、prediction

我使用Jaccard系数来预测新闻中的链接，然后得到我预测的AUC分数。我的代码可以工作，但是每次它给我一个不同的分数，因为每次它随机选择不同的节点作为训练集。假设我想运行1000个预测分数，并存储它们，然后得到这些分数的平均值。我需要在代码中添加/更改什么？输入 #Remove 20% of the edges proportion_edges=.2 edge_subset = random.sample(G.edges(), int(proportion_edges*G.number_of_edges())) #Create a copy of the graph and remove

浏览 7提问于2022-09-11得票数 0

1回答

如何解释近乎完美的准确率和AUC-ROC，但F1为零-分数，精度和召回率

machine-learning、classification、roc、precision-recall

我正在使用python scikit-learn训练ML逻辑分类器来对两个类进行分类。他们处于极不平衡的数据中(大约14300:1)。我得到了几乎100%的准确率和ROC-AUC，但准确率，召回率和f1分数为0。我理解在非常不平衡的数据中，准确性通常是没有用的，但为什么ROC-AUC度量也接近完美？ from sklearn.metrics import roc_curve, auc # Get ROC y_score = classifierUsed2.decision_function(X_test) false_positive_rate, true_positive_rate, t

浏览 0提问于2016-01-10得票数 22

回答已采纳

2回答

如何比较不同二进制分类器的ROC AUC分数并评估Python的统计意义？(p-值，置信区间)

python、machine-learning、scikit-learn、neural-network、statistics

我想比较Python中不同的二进制分类器。为此，我要计算中华民国的积分，测量95%置信区间(CI)，以及p值来获取统计学意义。以下是一个最小的例子，在科学知识-学习，培训三种不同的模型上的二进制分类数据集，绘制的曲线和计算的AUC分数。以下是我的具体问题：如何计算95%置信区间(CI)在测试集上的得分？(例如用鞋带)。如何比较AUC评分(在测试集上)和测量p值来评估统计学意义？(无效假设是，模型没有区别。否定零假设意味着AUC分数的差异在统计学上是显著的。。 import numpy as np np.random.seed(2018) from sklearn.

浏览 2提问于2018-09-17得票数 20

回答已采纳

2回答

非等级分类器(如OSVM )的AUC-ROC

python、machine-learning、scikit-learn、svm、auc

我目前正在使用auc-roc曲线，让我说我有一个没有排名的分类器，比如一个预测值为0和1的支持向量机，并且预测不是很容易转换成概率或分数，如果我不想绘制AUC-ROC，我只想计算AUC，看看我的模型做得有多好，我还能这样做吗？它是否仍然被称为或作为一个AUC，特别是有两个阈值可以使用(0，1)？如果是这样的话，它会和用分数来计算AUC一样好吗？现在假设我已经决定用支持向量机(0,1)创建的标签来绘制AUC-ROC，它看起来就像下面的图片i。它还会被认为是和AUC-曲线吗？非常感谢您的帮助和支持。注:我读过以下问题，但没有找到答案：

浏览 2提问于2018-04-20得票数 0

回答已采纳

1回答

在XGBoost中将自定义度量用于评分方法

python、scikit-learn、xgboost

我正在使用xgboost来解决数据集不平衡的分类问题。我计划使用F1得分或roc-auc的一些组合作为我判断模型的主要标准。目前，从score方法返回的默认值是准确性，但我真的希望返回一个特定的评估指标。我这么做的主要动机是，我假设模型的feature_importances_属性是由影响score方法的因素决定的，而影响预测准确性的列可能与影响roc-auc的列非常不同。现在，我正在将值传递给eval_metric，但这似乎没有什么不同。下面是一些示例代码： from sklearn.model_selection import train_test_split from xgboos

浏览 14提问于2021-04-24得票数 0

1回答

我应该如何获得负类的AUC？

scikit-learn

我使用来计算我的二进制分类模型的AUC值： roc_auc_score(Y_test_binary, plc.predict_proba(X_test, y_true)) 它返回0.810477872581。根据我的理解，它代表了模型识别积极类的程度。然而，我也想知道另一面:我也想计算负类的AUC。我怎么发动汽车呢？我应该使用"average“参数吗？ ======================================================== 根据文档，"average=None“似乎可以”返回每个班级的分数“。但它仍然只返回一个值： >>&

浏览 7提问于2017-02-06得票数 0

1回答

使用xgboost处理极端不平衡问题

xgboost、imbalanced-data

我的训练数据具有极不平衡的类{0:8725，1:3335}，具有100个特征。我使用xgboost通过贝叶斯优化来构建分类模型，以在{learning rate:(0.001,0.1)，min_split_loss:(0.10)，max_depth:(3,70)，min_child_weight:(1:20)，max_delta_step:(1,20)，subsample:(0:1)，colsample_bytree:(0.5,1)，λ：(0，10)，alpha:(0,10)，scale_pos_weight:(1,262)，n_estimator:(1,20)}范围内对模型进行超调优。我还使

浏览 6提问于2021-02-27得票数 0

8回答

如何在keras中计算接收工作特性(ROC)和AUC？

python、theano、keras

我有一个多输出(200)二进制分类模型，它是我用keras编写的。在这个模型中，我想添加额外的指标，比如ROC和AUC，但在我的知识内核中没有内置的ROC和AUC指标函数。我试着从scikit-learn导入ROC，AUC函数 from sklearn.metrics import roc_curve, auc from keras.models import Sequential from keras.layers import Dense . . . model.add(Dense(200, activation='relu')) model.add(Dense(300

浏览 7提问于2016-12-08得票数 63

1回答

在高度不平衡的数据中混淆F1分数和AUC分数，同时使用5倍交叉验证

python、machine-learning、scikit-learn、classification

我一直在尝试使用5折交叉验证来对高度不平衡的数据进行分类。我的样本量是：总样本: 12237899 阳性样本: 1064份(占总数的0.01%) 我也想避免数据泄露。然而，我得到了相当低的平均精度分数和F-1分数。我使用加权逻辑回归来帮助我处理不平衡的数据，因为SMOTE在存在极不平衡的数据时不能很好地工作。另外，我在sklearn库中看到了F-1分数的几个选项。例如: f1 score有一个参数:average{‘微’，‘宏’，‘样本’，‘加权’，‘二进制’}。不确定我应该使用哪一个？另外，它与cross_val_score(clf，X，y，cv=5，scoring='f1'

浏览 0提问于2021-04-03得票数 1

1回答

如果测试数据不平衡，ROC的AUC评分会更好。

class-imbalance、score

我有一个不平衡的数据集，我使用XGBoost进行二进制分类。我使用下采样与目标和一个热编码的列车数据。对于测试数据，我曾经只使用编码，使其不平衡，并且曾经尝试使用平衡的测试数据集。不平衡测试数据的ROC AUC score值明显高于平衡测试数据。这怎麽可能？我觉得ROC AUC的分数不应该有什么不同吗？

浏览 0提问于2019-08-15得票数 1

1回答

不正确的ROC分数为Kaggle比赛？

python、scikit-learn、classification、logistic-regression、kaggle

我正在研究一个Kaggle竞争，并使用Logistic回归分类器测试前10名竞争对手的方法。链接到竞赛：我仍然是相当新的分类问题，所以我只是测试分类器，没有太多的修改。在本例中，我使用了scikit-learn的logreg。我清理了测试/训练数据，并使用它生成了ROC曲线。我在曲线下的面积是0.89，这将使我以显著的领先优势排在第一位，考虑到我的实现的简单性，这对我来说似乎是不可能的。有人能告诉我，我的程序是否做错了什么，给出了这样的分数(Ex )。或者代码中的错误)？ import csv import preprocessor as p import matplotlib.pypl

浏览 2提问于2017-12-10得票数 1

回答已采纳

3回答

滑雪板分类度量auc返回ValueError

python、python-3.x、machine-learning、scikit-learn、auc

我正在用KNN建立两类分类模型我试图用以下方法计算auc_score from sklearn.metrics import auc auc(y_test, y_pred) --------------------------------------------------------------------------- ValueError Traceback (most recent call last) <ipython-input-183-980dc3c4e3d7> in <module> --

浏览 4提问于2019-03-04得票数 6

回答已采纳

3回答

什么是评价高度不平衡的二元分类小说的最佳指标？(例如在信用卡中发现欺诈)

classification、class-imbalance、binary

什么是评价高度不平衡的二元分类小说的最佳指标？(例如在信用卡中发现欺诈？) 我已经检查了几个指标精确召回F1标记报告(宏avg，加权avg)，ROC，AUC，.但是，我不知道有什么更能让人接受来规避高度不平衡的二进制分类，比如信用卡欺诈检测https://www.kaggle.com/mlg-ulb/creditcardfraud。

浏览 0提问于2020-01-05得票数 6

1回答

在ML模型的拟合和预测中，一维或二维阵列是否重要？

python-3.x、machine-learning、scikit-learn

我开发了一个文本分类模型，其中我的X_test和X-train是二维数组。其中as y_test和y_train是一维数组。虽然我在训练、拟合和预测我的ML模型时没有遇到任何错误。但是我不知道为什么我在生成中华民国的分数上有困难。上面写着AxisError: axis 1 is out of bounds for array of dimension 1!！我无法找到解决这个问题的办法。所以我很想知道在ML模型中是否存在一维和二维数组的相关性。或者它应该是其中之一；要么是一维数组，要么是二维数组。有人能解释一下吗？文本分类模型的示例代码(生成roc评分)： from sklearn.me

浏览 22提问于2021-12-26得票数 0

1回答