为什么sklearn.svm.SVC.predict()的结果和sklearn.svm.SVC.predict_proba()不一致？

sklearn.svm.SVC.predict()和sklearn.svm.SVC.predict_proba()是scikit-learn库中支持向量机（SVM）分类器的两个方法。它们在预测结果上有所不同的原因是因为它们使用了不同的策略。

sklearn.svm.SVC.predict():
- 概念：predict()方法用于对给定的输入样本进行分类预测，返回预测的类别标签。
- 分类：predict()方法属于监督学习中的分类任务。
- 优势：predict()方法执行速度较快，适用于需要快速得到分类结果的场景。
- 应用场景：适用于需要进行二分类或多分类的问题，例如图像分类、文本分类等。
- 推荐的腾讯云相关产品：腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）

sklearn.svm.SVC.predict_proba():
- 概念：predict_proba()方法用于对给定的输入样本进行分类预测，并返回每个类别的概率估计。
- 分类：predict_proba()方法同样属于监督学习中的分类任务。
- 优势：predict_proba()方法提供了更详细的分类概率信息，可以用于进一步分析和决策。
- 应用场景：适用于需要了解每个类别的概率分布情况的问题，例如风险评估、推荐系统等。
- 推荐的腾讯云相关产品：腾讯云机器学习平台（https://cloud.tencent.com/product/tiia）

为什么它们的结果不一致呢？

predict()方法返回的是预测的类别标签，即将输入样本分到某个具体的类别中。这是一个离散的结果，只表示最终的分类结果，不提供其他信息。
predict_proba()方法返回的是每个类别的概率估计。这是一个连续的结果，表示输入样本属于每个类别的概率。因此，它提供了更详细的分类信息，可以用于进一步分析和决策。

两者的结果不一致可能是由于以下原因：

SVM模型的训练数据不足或不具有代表性，导致模型无法准确地预测样本的类别概率。
SVM模型的超参数设置不合理，导致模型在预测时出现偏差。
输入样本的特征与训练数据的特征分布不一致，导致模型无法准确地预测样本的类别概率。

为了解决这个问题，可以尝试以下方法：

增加训练数据的数量和质量，确保训练数据具有代表性。
调整SVM模型的超参数，例如正则化参数、核函数等，以提高模型的预测准确性。
对输入样本进行特征工程，确保输入样本的特征与训练数据的特征分布一致。

总结：sklearn.svm.SVC.predict()和sklearn.svm.SVC.predict_proba()的结果不一致是因为它们使用了不同的策略，前者返回离散的类别标签，后者返回连续的类别概率估计。这种不一致可能是由于训练数据不足、超参数设置不合理或输入样本特征不一致等原因造成的。为了解决这个问题，可以增加训练数据、调整超参数或进行特征工程等操作。

计算LinearSVC试剂盒中每样x的概率估计P(y=x)

、、

我正在使用scikit中的线性scikit训练我的数据集。我能计算/得到样本在给定标签下分类的概率吗？例如，使用SGDClassifier(loss="log")来拟合数据，启用了predict_proba方法，该方法给出了每个样本x的概率估计向量P(y|x)。 >>> clf = SGDClassifier(loss="log").fit(X, y) >>> clf.predict_proba([[1., 1.]]) 输出： array([[ 0.0000005, 0.9999995]]) 在使用svm.LinearSV

浏览 1提问于2013-11-29得票数 1

回答已采纳

1回答

在SVC中用predict_proba解释class_weights结果

、、

我要执行概率二进制分类(0,1)。我的数据集是imbalanced.Thus，我使用SVC并为每个类分配了一些类权重。在对测试数据集进行SVC拟合后，利用predict_proba得到概率分类结果。然而，SVC预测训练实例为1，概率分类结果高于0.4。我认为predict_proba的默认阈值是0.5。我想知道在使用class_weights的情况下，默认阈值是否是自动的？例如： 0.58497606，0.41502394 >> predict_probaba函数结果的预测标签为1。

浏览 2提问于2021-12-21得票数 0

1回答

在Catboost分类器中获得每个预测结果的置信度分数

、、、

我已经建立了一个机器学习模型，使用Catboost分类器来预测我的结果的分类名，如下面的screenshot1所示。但是，如果我得到一个未知的输入，或者模型没有经过训练的任何输入，那么我需要将它返回为null。我处理这个问题的想法是基于信任评分的概率，如低于scrrenshot2 (预期输出)。对于已知输入，该模型具有较高的概率评分，对于任何未知的未见输入，该模型的置信度分数较低。如何实现这一目标并将概率列添加到我的预测结果中，如下面的screenshot2 (预期输出)所示？我正在处理的代码 pred = pipe_model_.predict(df_unseen) predict_p

浏览 2提问于2021-12-12得票数 2

1回答

为什么predict_proba函数sklearn.svm.svc的概率大于1？

、、、

我已经在两个包含140个样本的类上训练了一个sklearn.svm.svc (径向基函数核)模型。当我试图预测时，概率被设置为真，而这两类的预测概率是不同的。对于一些测试样本，它给出一个大于1的概率。和其他少于一个的例如(“样本-1”：1.55478334，“样本-2”：0.999984)。在某些情况下，这两种概率都小于1。例如(“样本-1”：0.4182294947776875，“样本-2”：0.58177035052223113)。我的模型是否运转良好，或者在我的训练或测试中有一些错误。我的代码如下： #Training code

浏览 3提问于2017-11-23得票数 0

回答已采纳

1回答

scikit中的OCSVM :离群点的距离总是为负值

、、、

我使用来自Scikit的一类支持向量机分类器OneClassSVM来确定数据集中的异常值。我的数据集有30000个样本，有1024个变量。我用其中的10 %作为训练数据。 clf=svm.OneClassSVM(nu=0.001,kernel="rbf",gamma=1e-5) clf.fit(trset) dist2hptr=clf.decision_function(trset) tr_y=clf.predict(trset) 如前所述，我使用decision_function(x)函数计算每个样本到决策函数的距离。当比较预测结果和距离结果时，在预测输出中标记为+1的样本总

浏览 2提问于2017-04-17得票数 0

回答已采纳

1回答

如何使用具有特定内核的多个支持向量机分类器-each作为"one vs rest“分类方案？

、、、

假设我们有5个不同类别的样本，如A、B、C、D和E。在我的例子中，要使用"one vs rest分类“方法，就必须有5个1-VS-rest SVM分类器，如下所示： SVM1: a和rest SVM2: B对rest SVM3: C对rest SVM4: d与rest SVM5: e对rest 用训练样本训练这5个分类器，每个分类器使用不同的核。新输入的样本被传递给每一个被分类的5个分类器。然后考虑一个实际属于"A“类的新样本被SVM1分类为"A”的备忘录(这是正确的)，同时又被SVM4分类为"D“的成员(这是不正确的)，问题是如何找出这两种支持向量机中哪一种预

浏览 2提问于2016-05-02得票数 0

回答已采纳

1回答

SKLearn支持向量机proba阈值= 0.5？

、、

我有一个我训练过的支持向量机模型(SVC(class_ SVM =‘balanced’))。我使用predict_proba()来获得计算ROC AUC的概率，并使用predict()来获得对f1_score的预测。从文档中可以看到(predict_proba() > 0.5).astype(int) ==预测()，但是情况并非如此。谁能帮我理解为什么不呢？我的f1_score和中华民国的成绩仍然有效吗？ a = svm.predict_proba(vec.transform(X))[:,1] b = svm.predict(vec.transform(X)) print(np.mean

浏览 8提问于2022-11-18得票数 -1

1回答

XGBoost如何计算predict_proba()中的概率？

、、、、

我正在为XGBoost使用sklearn包装器。我没有找到一个清晰的解释，说明predict_proba()输出的概率是如何计算出来的。例如，在随机森林中，我知道它反映了属于这个类别的样本在所有树木的相关叶子中所占比例的平均值。但是，在XGBoost中，我无法理解文档或代码中的计算。不是应该给每棵树不同的重量吗？

浏览 0提问于2017-03-19得票数 6

4回答

具有多个训练数据来源的监督学习

、

我不确定这是机器学习问题的正确交换站点，但我之前确实看到过ML问题，所以我正在碰碰运气(也发布在上)。我有来自不同来源的训练实例，因此构建一个模型不能很好地工作。在这种情况下，有没有已知的方法可以使用？举个例子最能说明问题。假设我想在给定基于不同人群构建的训练数据的情况下对癌症/非癌症进行分类。来自一个群体的训练实例可能具有与其他群体完全不同的正/负样本分布。现在，我可以为每个群体建立一个单独的模型，但问题是对于测试，我不知道测试实例来自哪个群体。 *无论来自哪个群体，所有训练/测试实例都具有完全相同的特征集。

浏览 0提问于2011-09-03得票数 5

2回答

Libsvm总是预测同一类

、、、

我正在使用Libsvm来解决一个二进制分类问题。我的数据集有大约50K个属性和18个样本。我正在使用leave one out验证(对17个样本进行训练，并对剩余的样本进行测试)。我使用以下命令对数据进行标准化： svm-scale -s scaling_parameters Train$i > TrainScaled$i svm-scale -r scaling_parameters Test$i > TestScaled$i 训练和预测如下所示： svm-train -s 0 -c 5 -t 2 -g 0.5 -e 0.1 TrainScaled$i model svm-pre

浏览 0提问于2014-04-17得票数 1

2回答

我训练过的图像分类器模型对所有不属于该类别的图像进行分类

、、、

我已经训练了一个模型来识别动物，它正在工作，部署到android应用程序中。我正在寻找一种解决方案，使图像分类器只对训练过的类别进行分类。我不确定是通过模型训练还是通过添加任何代码来解决这个问题。例如，如果发送一个杯子的图片进行分类，结果显示为Dog或其他动物名称。如何只对给定的类别进行分类，其他任何类别都显示为“不是动物”。 Im使用Tensorflow 1.12，MobileNet模型

浏览 1提问于2019-03-31得票数 2

2回答

Python:支持向量机编码中的格式问题

、、、

我想用svm做监督机器学习。我的项目是:考虑到奥巴马的几次演讲，罗姆尼的几次演讲，分类器可以决定在我们输入未知的演讲时，哪个演讲者说过这句话。站点上的代码如下所示: SVC、NuSVC和LinearSVC以两个数组为输入:大小为n_samples的数组X，保存训练样本的n_features，以及整数值的数组Y，size n_ samples < code >E29</code>，保存训练样本的类标签： >>> from sklearn import svm >>> X = [[0, 0], [1, 1]] >>>

浏览 4提问于2014-07-08得票数 0

3回答

使用支持向量机预测概率

、、、

我写了这段代码，想要获得分类的概率。 from sklearn import svm X = [[0, 0], [10, 10],[20,30],[30,30],[40, 30], [80,60], [80,50]] y = [0, 1, 2, 3, 4, 5, 6] clf = svm.SVC() clf.probability=True clf.fit(X, y) prob = clf.predict_proba([[10, 10]]) print prob 我获得了以下输出： [[0.15376986 0.07691205 0.15388546 0.15389275 0.1538634

浏览 1提问于2018-03-27得票数 8

回答已采纳

2回答

我需要通过训练分数来纠正predict_proba吗？

、、

许多算法提供了一个predict_proba函数，表示一个案例属于该类的概率(例如，https://scikit-learn.org/stable/modules/generated/sklearn.svm.libsvm.predict_proba.html )。引用@Media在用输出0.5解释二进制分类(真)上的回答假设您有一个区分白色和蓝色汽车的汽车分类器。在训练期间，你有100张蓝色汽车的图片和20张白色汽车的图片。在回忆阶段，如果对于任意图像，每个类都有50 %. 如果蓝色汽车占训练案例的83%，而我得到的predict_proba为蓝色为0.5，那么我是将概率取为0.5，还是需

浏览 0提问于2018-11-28得票数 1

回答已采纳

1回答

多类分类:概率与校准

、、、、

我正在用不同的分类器处理一个多类分类问题，使用Python和scikit学习。我想使用预测的概率，基本上是比较不同分类器对特定情况的预测概率。我开始阅读有关“校准”的内容，例如在和，我开始感到困惑。我所理解的是:一个经过良好校准的概率意味着一个概率也反映了某个类别的分数。这是否意味着，如果我有10个分布均匀的类，理想情况下，每个类的校准概率将在0.1左右？我是否可以将predict_proba的概率(没有校准)解释为“分类器对于这个分类器是否是正确的类有多确定”？希望有人能为我澄清这一点！)

浏览 0提问于2020-02-07得票数 3

1回答

朴素贝叶斯概率总是1

、、

我开始使用sklearn.naive_bayes.GaussianNB进行文本分类，并取得了良好的初步结果。我希望使用分类器返回的概率作为可信度的度量，但是predict_proba()方法总是返回"1.0“表示所选的类，而返回"0.0”表示其余的类。我知道(从)“来自predict_proba的...the概率输出不应被太重视”，但在这个程度上？！分类器可能会弄错金融投资或和弦，但predict_proba()输出没有表现出犹豫的迹象. 关于背景的一点：我一直在使用sklearn.feature_extraction.text.TfidfVectorizer进行特征提

浏览 4提问于2013-08-05得票数 8

1回答

predict_proba比较

、

我想预测单个credit_balance大于值N为真的概率比较了三种分类方法: Logistic回归法、最小判别法和二次判别法。对于一个样本预测，对于每一个具有不同值的样本，如何确定哪个模型最适合我的预测？线性回归predict_proba结果为[[0.93227393 0.06772607]] LDA predict_proba是[[0.94144572 0.05855428]] QDA precit_proba是[[9.99999999e-01 1.24419207e-09]] 我们应该看哪些参数来决定哪种分类是最适合预测模型的？

浏览 0提问于2018-04-16得票数 1

1回答

基于LIBSVM在scikit.smv.SVC中启用概率估计

、、

在LIBSVM中，svmtrain中的-b标志用于训练svmtrain或SVR模型以进行概率估计。为了获得测试集的相应结果，我们还在svmpredict中设置了-b结果例如，在MATLAB中，我们将编写以下代码以在启用概率估计的情况下进行训练和测试： model = svmtrain(train_labels, train_set, '-b 1') [result, accuracy, prob] = svmpredict(test_labels, test_set, '-b 1') 但是，在初始化scikit learn库中的SVC时，我们只能在训练时设置-

浏览 10提问于2018-01-10得票数 1

1回答

概率分布

、、

利用predict_proba方法，我们可以从sklearn的API中得到二进制分类器的预测概率。是否有理由期望直方图的形状为我们假设“1”类的预测概率来近似于正态分布？什么是统计理论，允许这一点？我注意到了我训练过的一个logistic回归模型的例子。

浏览 0提问于2023-01-26得票数 1

1回答

如何计算随机森林中的个别树木的投票，以及在Sklearn中如何计算额外的树木的票数？

、、、

我已经在锈蚀中构建了自己的额外树(XT)分类器，用于二进制分类。为了验证我的分类器的正确性，我一直比较它与Sklearns实现的XT，但我不断得到不同的结果。我想我的代码一开始肯定有一个bug，但现在我意识到它不是一个bug，而是计算集合中不同树之间的选票的不同方法。在我的代码中，每一棵树都根据叶数据子集中最常见的分类进行投票。例如，如果我们遍历一棵树，发现我们在一个叶节点上有40种分类，60种分类为1，树将数据分类为1。查看Sklearn关于XT ()的文档，我阅读了关于预测方法的下面一行输入样本的预测类别是由森林中的树木投票，并按其概率估计进行加权。也就是说，预测类是树的平均概率估计

浏览 9提问于2021-04-05得票数 1

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么sklearn.svm.SVC.predict()的结果和sklearn.svm.SVC.predict_proba()不一致？

相关·内容

计算LinearSVC试剂盒中每样x的概率估计P(y=x)

在SVC中用predict_proba解释class_weights结果

在Catboost分类器中获得每个预测结果的置信度分数

为什么predict_proba函数sklearn.svm.svc的概率大于1？

scikit中的OCSVM :离群点的距离总是为负值

如何使用具有特定内核的多个支持向量机分类器-each作为"one vs rest“分类方案？

SKLearn支持向量机proba阈值= 0.5？

XGBoost如何计算predict_proba()中的概率？

具有多个训练数据来源的监督学习

Libsvm总是预测同一类

我训练过的图像分类器模型对所有不属于该类别的图像进行分类

Python:支持向量机编码中的格式问题

使用支持向量机预测概率

我需要通过训练分数来纠正predict_proba吗？

多类分类:概率与校准

朴素贝叶斯概率总是1

predict_proba比较

基于LIBSVM在scikit.smv.SVC中启用概率估计

概率分布

如何计算随机森林中的个别树木的投票，以及在Sklearn中如何计算额外的树木的票数？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐