F1分数不是准确率和召回率的调和平均值的原因是什么？

F1分数是准确率和召回率的调和平均值，它的计算公式为：F1 = 2 * (准确率 * 召回率) / (准确率 + 召回率)。F1分数的目的是综合考虑准确率和召回率两个指标，用于评估分类模型的性能。

F1分数不同于简单的算术平均值，原因如下：

偏向较低的指标：F1分数的计算方式决定了它会偏向较低的指标。当准确率和召回率中有一个较低时，F1分数会受到较低指标的影响，因为调和平均值对较低值更为敏感。这意味着如果模型在准确率和召回率之间存在较大差异时，F1分数将更接近较低的指标。
平衡准确率和召回率：F1分数的目的是平衡准确率和召回率。准确率衡量了模型预测为正例的样本中有多少是真正的正例，而召回率衡量了模型能够正确预测为正例的样本占所有真正正例的比例。F1分数通过调和平均值将这两个指标结合起来，使得模型在准确率和召回率之间取得平衡。
强调模型的全面性和准确性：F1分数对于模型的全面性和准确性都有要求。准确率衡量了模型的准确性，即模型预测为正例的样本中有多少是真正的正例；召回率衡量了模型的全面性，即模型能够正确预测为正例的样本占所有真正正例的比例。F1分数要求模型在这两个方面都有较好的表现，才能取得较高的分数。

总结起来，F1分数不是准确率和召回率的算术平均值，而是调和平均值，它综合考虑了模型的准确性和全面性，并且对于较低的指标更为敏感。在实际应用中，F1分数常用于评估分类模型的性能，特别是在正负样本不平衡的情况下。

在有监督的多类分类中，为什么使用宏观F1分数而不是平衡精度？

machine-learning、supervised-learning

假设我有一个三类问题，我想构建一个可以根据一组特征区分类的分类器。我想根据模型区分这3个类的能力来评估它。从我的阅读来看，宏观F1分数似乎是用于评估多类问题分类器的常用指标，其中为每个类计算F1分数，然后将这些F1分数的未加权平均值用作macro F1 score。在其他文献中，我见过用于多类问题的平衡精度，其中计算每一类的精度，然后将这些精度的未加权平均值用作balanced accuracy。为什么宏观F1得分比平衡准确性更受青睐？平衡精度不是更容易解释吗，平衡精度< 0.5告诉我们模型的表现比随机更差？我们如何以与平衡准确率相同的方式来解释F1分数--什么阈值表明分类器比

浏览 4提问于2016-03-09得票数 3

3回答

为什么F度量对于分类任务来说是首选的？

machine-learning、model-evaluations、scoring、metric、nlg

Why是通常用于(监督)分类任务的F-测度，而G-测度(或Fowlkes-Mallows索引)通常用于(无监督)聚类任务？ F-度量是精度和回忆的调和平均值。 G-度量(或Fowlkes-Mallows索引)是几何的平均值精度和召回的平均值。下面是一个不同方法的情节。 📷 F1 (谐波) $= 2\cdot\frac{精度\cdot召回}{精确+召回}$ 几何$= \sqrt{精度\cdot召回}$ 算术$= \frac{精确+召回}{2}$ 我问这个问题的原因是，我需要决定在NLG任务中使用哪一个平均值，在哪里我测量了 BLEU 和 ROUGE (BLEU相当于精确，而ROUGE则相当于

浏览 0提问于2018-08-12得票数 12

1回答

机器学习二进制分类

python、machine-learning

我正在尝试使用多层感知器进行二进制分类。它基本上是句子的情感分析。目前只有二进制。正对负(目前我的数据中没有中性)，所以它是二进制的。我发现一件奇怪的事情是，当正数编码为1 (positive=1，negative=0)和负数编码为1 (positive=0，negative=1)时，性能(准确性，召回率，精确度，F1分数)有显著差异。当然，我使用了相同的X数据集和相同的模型(架构)。仅更改了标签编码。当阳性病例编码为1时，平均f1分数约为89。(我运行了相同的模型10次)当阴性病例编码为1时，平均f1分数约为50。(同样的模型我运行了10次) 我对这个结果感到很困惑。我认为这不应该有

浏览 22提问于2021-01-08得票数 0

2回答

在keras中使用class_weight处理不平衡数据集时，准确率会显著降低

python、tensorflow、keras、sentiment-analysis

我有一个很不直观的问题。我正在对亚马逊书评进行情感分析，数据集严重不平衡。正面评论几乎是负面评论的10倍，训练和测试的准确率都在90%左右(数据集不平衡)。然而，当我尝试在class_weight = {0:10 , 1:1}的帮助下平衡数据集时，训练和测试的准确率都下降到了65%左右。同样，如果我的class_weight = {0:1 , 1:10}准确率再次激增，那么显然我设置的class_weight是错误的，但据我所知，因为正面评论的数量(1)是负面评论数量(0)的10倍，class_weight不应该设置为{0:10，1:1}吗？这是我对训练和测试数据进行分类的方法： x_tra

浏览 2提问于2018-11-25得票数 1

2回答

怎样才能解释为什么F1评分要高得多呢？

machine-learning、neural-network、deep-learning、classification、keras

我正在构建一个二进制分类器，它使用Keras对数值数据进行分类。我的数据集中有6992个数据点。测试集占数据的30%。验证集占训练集的30%。在评估模型时，我得到以下值： recall: 0.8914240755310779 precision: 0.7006802721088435 f1_score: 0.7846260387811634 accuracy_score: 0.7035271816800843 为什么accuracy_score比F1的分数低10%？下面是我用来评估模型的代码： print('recall: ', recall_score(Y_te

浏览 0提问于2019-01-18得票数 4

回答已采纳

1回答

在尝试使用网格搜索交叉验证优化分类器模型时，我的f1分数降至0

python、classification

我已经运行了RandomForestClassifier和MLPClassifier模型，我收到的准确率和f1得分分别为83%和39%，而不是86%和34%。我的数据集不平衡，一个类中有523个，另一个类中有91个，它有22个特征。当我尝试使用网格搜索交叉验证优化我的模型时，我对两个模型的准确率都略有提高，但我的f1分数下降到0%，这可能是什么原因？

浏览 3提问于2021-03-12得票数 0

2回答

Gridsearch CV中的评分

python、machine-learning、data-science、grid-search

我刚开始用Python语言编写GridSearchCV，但是我搞不懂这里面到底有什么好处。我见过的某个地方 scorers = { 'precision_score': make_scorer(precision_score), 'recall_score': make_scorer(recall_score), 'accuracy_score': make_scorer(accuracy_score) } grid_search = GridSearchCV(clf, param_grid, scoring=score

浏览 2提问于2018-09-27得票数 8

回答已采纳

2回答

具有大不平衡数据的sklearn

scikit-learn、classification、multilabel-classification、lightgbm

我一直在使用Sklearn HistGradientBoostingClassifier对一些数据进行分类。我的实验是用单标签预测(20个标签)进行多类分类. 我的经验显示有两种情况。第一种情况是在不增加数据的情况下(大约3,000个样本)测量这些算法的准确性。第二个例子是用数据增强测量精度(约12,000个不平衡样本)。我使用的是默认参数。在第一种情况下，HistGradientBoostingClassifier的准确率约为86.0%。然而，随着数据的增加，结果显示较弱的准确性，约23%。我想知道这种准确性是否来自不平衡的数据集，但是由于Sklearn库中没有为HistGradient

浏览 31提问于2022-11-28得票数 0

回答已采纳

3回答

对于不平衡的数据，精度低于f1分。

classification、accuracy、confusion-matrix、f1score

对于二进制分类，我有一个具有55%负标签和45%正标签的数据集。分类器的分类结果表明，该分类器的分类精度低于F1分。这是否意味着该模型对消极实例的学习要好于正面实例？这甚至是有意义的，有准确性低于F1的分数？

浏览 0提问于2020-07-13得票数 6

1回答

使用类权重平衡数据集会降低RBF SVM的精度

python-2.7、machine-learning、scikit-learn、classification、svm

我一直在使用sklearn来学习一些数据。这是一个二进制分类任务，我使用的是RBF内核。我的数据集非常不平衡(80:20)，我只使用了120个样本，具有10个左右的特征(我一直在尝试更少的几个)。自从我设置了class_weight="auto"后，我从交叉验证(10倍)网格搜索中计算出的准确率已经显著下降。为什么？? 我将包括几个验证精度热图来演示差异。注意:顶部热图是在classweight更改为auto之前。

浏览 2提问于2016-03-30得票数 0

2回答

不平衡数据的评价指标

machine-learning、time-series、class-imbalance、anomaly-detection、model-evaluations

嗨，我是个CS研究生我有个问题要问人工智能或数据专家。我在写论文我的数据集是时间序列传感器数据，异常(正类)比率在5%到6%之间。你可以看到下面的图片。我在sklearn库中使用了classification_report 📷 但是，我不知道该在我的评估部分报告什么价值. 我认为用宏avg (0.40)报告f1评分是合理的。可以吗？谢谢你的解释！

浏览 0提问于2021-07-02得票数 0

1回答

什么是机器学习中的“平均”f1分数？

performance、machine-learning、classification、kaggle

我知道f1分数，它使用精确度和召回率。但是，mean f1 score中的“mean”是什么？当我们使用它的时候，如何计算“均值”？编辑以明确解释我的问题:我知道f1分数是准确率和召回率的调和平均值。并且在计算f1得分时，需要多个分类结果来计算准确率和召回率。例如，如果我们有一个由1000个实例组成的数据集，我们可以得到1000个分类结果。然后我们把它放到列联表中，这样我们就可以计算f1分数了。现在，这是我与“平均”f1分数混淆的点。我们从列联表中计算f1得分，但是什么是“均值”？只有我可以计算f1分数，那么什么是“平均”，如何计算“平均”f1分数？

浏览 19提问于2017-08-10得票数 1

回答已采纳

1回答

F1分数不是准确率和召回率的调和平均值的原因是什么？

machine-learning、classification、dl4j

什么原因会导致F1分数不是精度和召回率的调和平均值，而多类的宏观平均加权相等？我的数据集是不平衡的，预测是不正确的。

浏览 33提问于2019-02-03得票数 0

1回答

为什么过采样后高度不平衡的数据集的准确性会降低？

classification、dataset、unsupervised-learning、supervised-learning、class-imbalance

我创建了一个合成数据集，其中一个类中有20个样本，另一个类中有100个，因此创建了一个不平衡的数据集。平衡前的数据分类准确率为80%，而平衡后的分类准确率为60% (即两个类别的100个样本)。可能的原因是什么？

浏览 0提问于2018-02-23得票数 7

回答已采纳

1回答

4/96不平衡但.95以上的所有指标

machine-learning、class-imbalance、f1score

我正在处理一些严重不平衡的数据集，其中我的1类在二进制分类问题中占数据的4%。我有大约1000万行，并开发了一个在accuracy_score、precision_score、recall_score、f1_score、roc_auc_score中输出+.95的模型。我一直听说，数据需要平衡，否则，模型将偏向0类。在模型具有良好的f1的情况下，情况仍然是这样吗？在我的问题上，我该怎么办？

浏览 0提问于2022-12-18得票数 1

2回答

如何交叉验证高度不平衡的数据集的深度学习模型？

machine-learning、neural-network、deep-learning、keras、multiclass-classification

我正在处理一个多模态分类问题(与Keras)。我有三个不同班级的1000、5000和10000个样本。我想做一个五倍交叉验证，以选择最好的预培训深入学习模式的部署。我包括在模型训练期间的课堂重量，以便给较少发音的课程更多的权重。对于给定的折叠，我将使用这三个类的200、1000和2000样本进行验证。在这种情况下，精确性是一个很好的预测手段吗？或者我也要测量F1分数和马修斯相关系数？我做得对吗？

浏览 0提问于2018-01-26得票数 3

回答已采纳

1回答

如何解释准确度与F1评分/F-测量之间的关系？

machine-learning-model、accuracy、model-evaluations、f1score

我正在建立一个CNN模型，使用歌曲录制的音高估计。基音估计方法是将谱图输入CNN模型，使CNN从该谱图中预测基音序列(每次记录250个基音值)。对于评估指标，我使用的是Accuracy和F1 Score。使用mean测量给出了总体测试结果的样本。 📷 一些注意事项： Val-Acc是验证的准确性。我用这个来看看模型如何分析训练中没有给出的新数据。 Delta acc是accuracy和val-acc之间的差值。现在，我想知道如何解释Accuracy和F1 Score之间的关系。我的主管对我说，测量精度是为了获得模型的精确性，而F1是模型的性能。这段关系真的是这样吗？我可以了解一下如何解释它

浏览 0提问于2021-04-30得票数 1

回答已采纳

1回答

在高度不平衡的数据中混淆F1分数和AUC分数，同时使用5倍交叉验证

python、machine-learning、scikit-learn、classification

我一直在尝试使用5折交叉验证来对高度不平衡的数据进行分类。我的样本量是：总样本: 12237899 阳性样本: 1064份(占总数的0.01%) 我也想避免数据泄露。然而，我得到了相当低的平均精度分数和F-1分数。我使用加权逻辑回归来帮助我处理不平衡的数据，因为SMOTE在存在极不平衡的数据时不能很好地工作。另外，我在sklearn库中看到了F-1分数的几个选项。例如: f1 score有一个参数:average{‘微’，‘宏’，‘样本’，‘加权’，‘二进制’}。不确定我应该使用哪一个？另外，它与cross_val_score(clf，X，y，cv=5，scoring='f1'

浏览 0提问于2021-04-03得票数 1

1回答

为什么在机器学习模型中，所有真正的积极因素都被归类为真正的消极因素？

python、random-forest、prediction

我为数据拟合了一个随机森林模型。我将我的数据集按70:30的比例分为训练和测试，并对模型进行了训练。我对测试数据的准确率为80%。然后，我取了一个基准数据集，并用该数据集测试了模型。该数据集仅包含具有真实标签(1)的数据。但是，当我使用该模型获得基准数据集的预测时，所有真正的正面都被归类为真正的负面。准确率为90%。为什么会这样呢？有没有办法解释这一点？ X = dataset.iloc[:, 1:11].values y=dataset.iloc[:,11].values X_train,X_test,y_train,y_test=train_test_split(X,y,test

浏览 13提问于2020-02-22得票数 0

3回答

从R中混淆矩阵的结果计算精度、召回率和FScore

r、confusion-matrix、precision-recall

我得到了下面的混淆矩阵，现在我需要计算它的精度，召回率和FScore，我如何使用获得的值来计算？混淆矩阵与统计 Reference Prediction One Zero One 37 43 Zero 19 131 Accuracy : 0.7304 95% CI : (0.6682, 0.7866) No Information Rate : 0.7565 P-Value [Acc > NIR] : 0.841087

浏览 2提问于2015-11-07得票数 5