如何使用Kfold对SVM超参数进行微调_使用网格搜索对GANs进行超参数调整_如何结合使用MultiOutputClassifier()和RandomizedSearchCV()进行超参数调优？ - 腾讯云开发者社区

python、scikit-learn、classification、svm、cross-validation

我想在我的SVM分类器上进行交叉验证，然后在实际的测试集上使用它。我想问的是，我是在原始数据集上进行交叉验证，还是在训练集上进行交叉验证，这是train_test_split()函数的结果？ import pandas as pd from sklearn.model_selection import KFold,train_test_split,cross_val_score from sklearn.svm import SVC df = pd.read_csv('dataset.csv', header=None) X = df[:,0:10] y = df[:,10]

浏览 0提问于2018-03-08得票数 0

1回答

检查我的数据是否是线性可分的

machine-learning、classification、svm

这一职位之后是以下职位：我想知道我的数据是否是线性可分的。在我收到上面链接的评论后，我决定在我的数据上运行一个硬支持向量机来查看分类结果。我的输入数据，X是(10000,128个)的矩阵，输出/目标/类是(10000，10)。我有10个班，范围从1到10。使用下面的代码，我尝试了LogisticRegression()、svm.LinearSVC(C=1，损耗=‘铰链’)和svm.SVC(内核=‘线性’，C=1)： dataframe = read_csv('data.txt') array = dataframe.values X = array[:, 0:128]

浏览 3提问于2017-02-21得票数 0

回答已采纳

1回答

如何在用XGBoost搜索GridSearchCV的超参数时防止机器崩溃

python、scikit-learn、xgboost、hyperparameter-tuning、grid-search

我正在寻找使用XGBRegressor使用GridSearchCV的最佳超参数。以下是代码： from xgboost import XGBRegressor from sklearn.model_selection import GridSearchCV, KFold param_grid_xgb_b1 = { 'num_leaves': np.arange(20, 500, 5), 'max_depth': np.arange(5, 50, 2), 'reg_alpha': np.arange(0.01, 0.5,

浏览 0提问于2020-11-09得票数 2

1回答

交叉验证与超参数整定工作流

python、cross-validation、hyperparameter-tuning

在阅读了大量关于交叉验证的文章之后，我现在感到困惑了。我知道交叉验证用于评估模型性能，并用于从多个算法中选择最佳算法。在选择最佳模型后(通过检验CV分数的均值和标准差)，我们在整个数据集(训练和验证集)上对该模型进行训练，并将其用于现实世界的预测。假设在交叉验证中使用的三种算法中，我选择了最好的一种。我不明白的是，在这个过程中，我们什么时候调整超参数？我们是在交叉验证过程中使用嵌套交叉验证来调优超参数，还是首先通过交叉验证选择性能最好的算法，然后只为该算法调优超参数？ PS:我将数据集分为训练、测试和有效，在这里我使用训练集和测试集来构建和测试我的模型(这包括所有的预处理步骤和嵌套的cv)，

浏览 0提问于2021-11-24得票数 2

回答已采纳

5回答

Keras中的交叉验证

machine-learning、keras、scikit-learn、neural-network、cross-validation

我正在Keras中实现一个多层感知器，并使用scikit学习执行交叉验证。为此，我受到了问题中的代码的启发。 from sklearn.cross_validation import StratifiedKFold def load_data(): # load your data using this function def create model(): # create your model using this function def train_and_evaluate__model(model, data[train], labels[train], da

浏览 6提问于2018-01-03得票数 21

回答已采纳

2回答

交叉验证问题

machine-learning、statistics、cross-validation

我是从这来的，回答得很好。我遇到了许多使用交叉验证的方法，对所附问题的回答是迄今为止对我最好的解释。我的两难处境是，现在我无法弄清楚如何使用Kfold验证：- 测试过度？超音波调谐？还有其他用例吗？也是怎么回事？我不知道在交叉val之后该如何处理平均分数，如何处理这些褶皱，以及如何处理对k-1倍的列车数据进行训练的模型？

浏览 0提问于2019-10-21得票数 1

回答已采纳

1回答

如何在scikit_learn中使用KFold中的shuffle

python-2.7、scikit-learn

我使用scikit learn提供的KFold函数运行10倍CV，以便选择一些内核参数。我正在实现这个(Grid_search)过程： 1-pick up a selection of parameters 2-generate a svm 3-generate a KFold 4-get the data that correspons to training/cv_test 5-train the model (clf.fit) 6-classify with the cv_testdata 7-calculate the cv-error 8-repeat 1-7 9-When rea

浏览 2提问于2012-09-02得票数 6

回答已采纳

2回答

Kfold交叉验证和GridSearchCV

machine-learning、scikit-learn、cross-validation、hyperparameters

好吧，我正在尝试理解如何以及在算法中的哪个点应用Kfold和GridSearchCV。此外，如果我理解正确，GridSearchCV用于超参数调整，即参数的值将提供最佳结果，Kfold用于更好的泛化，以便我们在不同的折叠上进行训练，从而减少偏差，如果数据以某种特定方式排序，则增加泛化。现在的问题是，GridSearchCV不是也在使用CV参数进行交叉验证吗？那么，我们为什么需要Kfold，如果我们需要的话，我们是否在GridSearchCV之前就做了呢？稍微概述一下这个过程会非常有帮助。

浏览 2提问于2018-03-19得票数 4

1回答

使用GridSearchCV时是否需要拆分数据？

python、machine-learning、scikit-learn、grid-search

Gridsearhcv使用StratifiedKFold或KFold。因此，我的问题是，在使用网格搜索之前，我是否应该将数据分成训练和测试，然后只对测试数据进行拟合？我不确定是否有必要，因为cv方法已经拆分了数据，但我已经看到了一些预先拆分数据的示例。谢谢。

浏览 0提问于2017-07-29得票数 13

回答已采纳

1回答

使用**kwargs设置n_estimators参数(Scikit学习)

python、machine-learning、scikit-learn

我正在尝试按照教程学习基于机器学习的预测，但我有两个问题？ Ques1。如何在下面的代码中设置n_estimators，否则将始终采用默认值。 from sklearn.cross_validation import KFold def run_cv(X,y,clf_class,**kwargs): # Construct a kfolds object kf = KFold(len(y),n_folds=5,shuffle=True) y_pred = y.copy() # Iterate through folds for train_index, test_index in kf:

浏览 0提问于2016-09-02得票数 3

回答已采纳

2回答

在分裂成折叠之前对数据进行洗牌。

machine-learning、cross-validation、hyperparameter、hyperparameter-tuning

我正在运行一个4倍交叉验证的超参数调优使用sklearn的'cross_validate‘和'KFold’函数。假设我的训练数据集已经被洗牌了，那么在分割成批/折叠(即KFold函数中的洗牌参数)之前，我是否应该对每一次超调参数调优重新洗牌数据？我注意到，超参数调优过程的结果将是不同的，这取决于在将数据分割成折叠之前对数据进行洗牌。我假设，如果结果取决于洗牌，那么模型就不稳定了。这是正确的吗？然而，这也可能对模型“不公平”，因为结果是不可复制的，因为每次我运行交叉验证时，每个折叠的数据都是不同的(也就是说，每个超参数组合都在完全不同的褶皱上进行评估。例如，第一次调优迭代的折叠

浏览 0提问于2020-02-27得票数 3

回答已采纳

1回答

梯度下降和网格搜索在机器学习中的区别是什么？

machine-learning、gradient-descent、grid-search

超参数优化使用两种技术，如网格搜索、或随机搜索。梯度下降主要用于将损失函数降到最小。这里查询是在什么时候我们将使用网格搜索和梯度下降。

浏览 1提问于2019-02-10得票数 2

1回答

如何使用Kfold对SVM超参数进行微调

python、svm、grid-search、k-fold

我想在代码中使用Gridsearch来微调我的SVM模型，我从其他github复制了这段代码，它对我的交叉折叠工作得很好。 X = Corpus.drop(['text','ManipulativeTag','compound'],axis=1).values # !!! this drops compund because of Naive Bayes y = Corpus['ManipulativeTag'].values kf = KFold(n_splits=5, shuffle=True, random_state

浏览 45提问于2021-09-15得票数 0

2回答

为什么随机搜索比网格搜索显示更好的结果？

python-3.x、machine-learning、scikit-learn、data-science

我正在玩RandomizedSearchCV函数从科学-学习。一些学术论文声称，与整个网格搜索相比，随机搜索可以提供“足够好”的结果，但可以节省大量时间。令人惊讶的是，有一次，RandomizedSearchCV给了我比GridSearchCV更好的结果。我认为GridSearchCV应该是详尽无遗的，所以结果必须比RandomizedSearchCV假设的结果更好--他们在同一个网格中搜索。对于相同的数据集和大多数相同的设置，GridsearchCV返回了以下结果：最佳cv精度: 0.7642857142857142 测试集得分: 0.725 最佳参数：“C”：0.02 Randomi

浏览 1提问于2018-01-04得票数 3

回答已采纳

2回答

与CNN交叉验证

python、machine-learning、keras、conv-neural-network、cross-validation

我想知道我的代码是否在做我想做的事情；给你一些背景信息，实现CNN的图像分类。我尝试使用交叉验证来比较我不同的神经网络架构在这里，代码： def create_model(): model = Sequential() model.add(Conv2D(24,kernel_size=3,padding='same',activation='relu', input_shape=(96,96,1))) model.add(MaxPool2D()) model.add(Conv2D(48,kernel_siz

浏览 0提问于2019-04-30得票数 1

回答已采纳

1回答

如何计算cv_results_和best_score_的测试分数？

python、machine-learning、regression、xgboost、scikit-optimize

我正在使用来自scikit-optimize的scikit-optimize来优化一个XGBoost模型，以适应我拥有的一些数据。虽然模型很适合，但我对诊断信息中所提供的分数感到困惑，无法复制它们。下面是一个使用波士顿房价数据集来说明我的观点的示例脚本： from sklearn.datasets import load_boston import numpy as np import pandas as pd from xgboost.sklearn import XGBRegressor from skopt import BayesSearchCV from skopt.spac

浏览 8提问于2021-03-23得票数 2

回答已采纳

1回答

如何提取重要的特征后，k-折叠交叉验证，有或没有管道？

python-3.x、scikit-learn、cross-validation

我想要构建一个使用交叉验证的分类器，然后从每个折叠中提取重要的特征(/coefficients)，这样我就可以查看它们的稳定性。目前，我正在使用cross_validate和管道。我想使用管道，以便我可以在每个折叠内进行特征选择和标准化。我被困在如何从每个褶皱中提取特征。我有一个不同的选择，使用管道下面，如果这是问题。到目前为止，这是我的代码(我想尝试SVM和logistic回归)。我包括了一个小的df作为例子： from sklearn.preprocessing import StandardScaler from sklearn.feature_selection import Sel

浏览 1提问于2019-06-12得票数 4

回答已采纳

1回答

如何处理机器学习中的字母数字值

machine-learning、scikit-learn、encoding

我正试图为我的索赔数据找到最佳算法。索赔数据包括一些诊断代码，这些代码是字母数字的，如“EA43454”。当我运行下面的代码来评估模型时 models.append(('LR', LogisticRegression())) models.append(('LDA', LinearDiscriminantAnalysis())) models.append(('KNN', KNeighborsClassifier())) models.append(('CART', DecisionTreeClassifier())) model

浏览 5提问于2022-07-21得票数 -2

2回答

在MATLAB和scikit之间，对于决策树的学习是不同的。

python、scikit-learn、decision-trees、accuracy、matlab

是否有可能通过使用python代码改变matlab和jupyter笔记本中相同数据集的准确性？对于相同的数据集，首先在matlab中应用，决策树法的准确率为96%，然后使用python代码将相同的数据集应用到jupyter笔记本中，通过k次交叉验证，C4.5 (决策树)的准确率为53%。我不明白对于相同的数据集和相同的方法获得不同的准确性的问题在哪里。我在python代码中的过程如下所示： import pandas as pd import numpy as np from sklearn import tree from sklearn.model_selection import

浏览 0提问于2019-01-23得票数 2

回答已采纳

3回答

基于交叉验证集的训练集损失函数值的评估

python、machine-learning、scikit-learn、loss-function

我按照安德鲁·吴的指示来评估分类中的算法：找出训练集的损失函数。将其与交叉验证的损失函数进行比较。如果两者都足够近且足够小，则转到下一步(否则，就会有偏差或variance..etc)。使用前一步生成的结果Thetas(即权重)对测试集进行预测，作为最终确认。我正在尝试使用Scikit-Learn库来应用这个程序，但是，我真的迷失了方向，并且确信我完全错了(我在网上没有发现任何类似的东西)： from sklearn import model_selection, svm from sklearn.metrics import make_scorer, lo

浏览 0提问于2018-08-07得票数 2

回答已采纳

1回答

我们如何使用k倍交叉验证来预测测试样本的目标？

python、sklearn-pandas

我正在尝试使用学习Python中的ML技术。我要做的是执行三重交叉验证，并使用来自Transported的特性预测目标变量( test.csv )。我唯一能做的就是在我的训练集上教一个模型，因为它包含了我的特性和我的反应。我想做的是： from sklearn.model_selection import train_test_split, cross_val_score, cross_val_predict, KFold from sklearn.neighbors import KNeighborsClassifier X, y = train_ready.drop('Tran

浏览 1提问于2022-04-24得票数 0

回答已采纳

6回答

模型超参数和模型参数有什么区别？

machine-learning、parameter、hyperparameter、language-model

我注意到，像模型超参数和模型参数这样的术语已经在网上交替使用了，而没有事先澄清。我认为这是不正确的，需要解释。考虑一个机器学习模型，一个基于SVM/NN/NB的分类器或图像识别器，仅仅是首先想到的任何东西。模型的超参数和参数是什么？请举你的例子。

浏览 0提问于2016-09-24得票数 49

回答已采纳

2回答

如何在scikit学习(Python)中优化随机森林模型

python、machine-learning、scikit-learn、random-forest

我有一个随机森林模型，使用scikit学习，如下所示： model = RandomForestClassifier(criterion='gini',n_estimators=700,min_samples_split=4,min_samples_leaf=1,max_features='auto',oob_score=True,random_state=1,n_jobs=-1) model.fit(X_train,y_train) y_pred_rm=model.predict(X_test) print('--------------The Acc

浏览 5提问于2020-07-18得票数 0

回答已采纳

2回答

如何在list.append - python中自动选择最大值

python、machine-learning、max

我正在做一个机器学习项目，我需要选择分类器的最高cv_results值。在计算所有值并将其存储在单个变量cv_results中后，如何自动选择分类器的最高值？ models = [] models.append(('LR', LogisticRegression())) models.append(('KNN', KNeighborsClassifier())) models.append(('NB', GaussianNB())) models.append(('SVM', SVC())) maxval = models[0]

浏览 0提问于2018-05-16得票数 0

1回答

Python Optunity:如何向优化例程传递附加参数

python、optimization、scikit-learn

背景我使用支持向量机对不平衡类进行二进制分类(即在我的训练集中，正负标签的比率是100)。我想优化以下参数:m(从我的训练数据中样本的正负标签的比率)，w(类别权重)和SVM参数C。问题我希望通过网格搜索来优化这些参数，并将评分函数定义为： def svm_acc(X, y, m, w, c): X, y = balanceClasses(X, y, m) clf = svm.SVC(kernel='rbf', C=c, class_weight = {1: w}) scores = cross_validation.cross_val_score(clf,

浏览 4提问于2015-06-22得票数 4

回答已采纳

1回答

R中的评测支持向量机(e1071)

r、statistics、machine-learning、bioinformatics、svm

我是R和SVM的新手，我正在尝试从e1071包中分析svm函数。但是，我找不到任何大型数据集，可以让我在不同大小的输入数据中获得良好的分析结果范围。有人知道如何解决svm问题吗？我应该使用哪个数据集？svm有没有什么特殊的参数可以让它更好地工作？我复制了一些用于测试性能的命令。也许它最有用，也更容易获得我在这里尝试的内容： #loading libraries library(class) library(e1071) #I've been using golubEsets (more examples availables) library(golubEsets) #get th

浏览 0提问于2012-06-13得票数 5

回答已采纳

1回答

R中的支持向量机

r、svm

我一直在使用R Studio开发支持向量机算法。然而，我最终得到了一个低准确率，我不知道如何解决它。我期望准确率超过90%。下面是我的代码： install.packages("caTools") install.packages("class") library(caTools) library(class) install.packages("ISLR") library(ISLR) Collegedata<-College[,-1] Collegedata[,-17]<-scale(Collegedata[,-17])

浏览 5提问于2016-05-27得票数 0

2回答

cross_val_score的准确性很差

python、python-3.x、machine-learning、cross-validation

对于机器学习分类，我使用10折交叉验证： kfold = StratifiedKFold(n_splits=10) 我拆分训练/测试数据： X_train, X_test, Y_train, Y_test = model_selection.train_test_split(X, y, test_size=0.3 ) 对于一个分类器，得到10倍精度平均值： cross_val_score(classifier, X_train, y=Y_train, scoring='accuracy', cv=kfold, n_jobs=4)) 这给了我一个0,62的准确度平均值。为了确认

浏览 115提问于2020-03-05得票数 1

2回答

当在scikit-learn中跨多个模型进行交叉验证时，如何保持相同的折叠？

cross-validation、scikit-learn

我正在对多个模型进行超参数调优，并比较结果。通过5折交叉验证选择每个模型的超参数。我使用sklearn.model_selection.KFold(n_splits=5, shuffle=True)函数来获得一个折叠生成器。在查看了有关KFold的文档和一些模型的源代码后，我怀疑每个模型都创建了一组新的折叠。我想让事情变得更公平，并对我正在调优的所有模型使用相同的(最初是随机的)折叠。在scikit-learn中有没有办法做到这一点？作为一个相关的问题，使用相同的折叠来获得我试图进行的公平比较有意义吗？

浏览 4提问于2020-06-23得票数 2

4回答

学习:让SGDClassifier预测以及Logistic回归

python、logistic-regression、scikit-learn、gradient-descent

一种训练Logistic回归的方法是使用随机梯度下降，而scikit-learn提供了一个接口。我想做的是拿一个科学工具-学习的SGDClassifier，并让它的分数与Logistic回归这里一样。然而，我一定是错过了一些机器学习的改进，因为我的分数并不相等。这是我目前的密码。我在SGDClassifier上遗漏了什么，它会产生与Logistic回归相同的结果？ from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.linear_model import

浏览 0提问于2015-08-04得票数 28

回答已采纳

1回答

支持向量机中预测的可信度

c++、opencv、machine-learning、svm

我正在使用opencv中的SVM分类器进行英语数字分类。我能够使用predict()函数预测类。但我希望在0-1之间得到预测的信心。有人能提供一种使用opencv的方法吗？ //svm parameters used m_params.svm_type = CvSVM::C_SVC; m_params.kernel_type = CvSVM::RBF; m_params.term_crit = cvTermCriteria(CV_TERMCRIT_ITER, 500, 1e-8); //for training svmob.train_auto(m_features,

浏览 1提问于2015-01-02得票数 3

回答已采纳

2回答

如何在sklearn管道中缩放x和y数据？

machine-learning、scikit-learn

我正在尝试在sklearn管道中缩放X特征数据和Y输出数据。我的代码如下所示，使用网格搜索通过交叉验证计算最佳LV数量。 kfold = KFold(n_splits = 5, shuffle = False) # Kfold pipeline = Pipeline(steps = [('preprocessor',StandardScaler()),('model',PLSRegression()]) # Pipeline param_grid = {'model__n_components':np.arange(1,10)} # param

浏览 1提问于2021-06-03得票数 0

2回答

缩放不会加快支持向量机模型的速度。

machine-learning、python、scikit-learn、svm

我试图用629,145行和24个特性的样本来标准化培训数据： from sklearn import datasets import pandas as pd from sklearn import svm from sklearn.model_selection import train_test_split from sklearn.preprocessing import MinMaxScaler from sklearn.preprocessing import StandardScaler df = pd.read_csv('mydata.csv', dtype=&

浏览 0提问于2019-02-17得票数 4

1回答

cross_val_score与估计分值之差？

python、scikit-learn

我在用Scikit-学习。我尝试使用交叉验证，使用简单的交叉验证过程和快速cross_validation.cross_val_score。但我发现我得到了不同的数字。为什么？ import numpy as np from sklearn import cross_validation, datasets digits = datasets.load_digits() X = digits.data y = digits.target svc = svm.SVC(kernel='linear') kfold = cross_validation.KFold(len(X)

浏览 5提问于2014-03-05得票数 1

回答已采纳

1回答

支持向量机与GD/SGD？

classification、svm、gradient-descent、text-classification

我的同事提到，一个数据科学项目正在使用SGD分类器。因此，我开始阅读有关GD/SGD的文章，并遇到了一个不错的文章，它使用支持向量机和GD进行文本分类。在文章末尾，作者提到：我们从一堆要训练的文件开始。然后，我们将每个文档表示为数字向量，您可以选择将它们分割成n克，然后用TF-下手称这些n克。现在我们有了一个数值表示，我们可以给出程序的训练数据，并使它的猜测每次。根据程序的错误程度，程序根据错误进行调整，以便在下一次使用梯度下降进行更好的预测。它使用支持向量机( SVMs )跟踪学习，并通过在图中“绘制”新的数据点并查看它是在右边还是在决策边界的左边，用SVM模型进行预测。这篇文章没有

浏览 0提问于2020-02-06得票数 1

1回答

SVC MultiClass分类OVO决策函数解释

python、scikit-learn

我试图理解如何在多类分类场景中使用一种Vs一种方法来解释decision_function值。我创建了一个包含100个样本的2D样本数据，每个样本包含4个类，存储在X&y变量中。以下是代码： # 4 Classes - Make 4 separate datasets d1, o1 = make_blobs(n_samples = 100, n_features = 2, centers = 1, random_state=0, cluster_std = 0.5) d2, o2 = make_blobs(n_samples = 100, n_features = 2, centers

浏览 2提问于2019-12-27得票数 1

回答已采纳

2回答

如何确定支持向量机中非线性核函数的特征重要性

python、machine-learning、scikit-learn、svm

我使用下面的代码来计算特性的重要性。 from matplotlib import pyplot as plt from sklearn import svm def features_importances(coef, names): imp = coef imp,names = zip(*sorted(zip(imp,names))) plt.barh(range(len(names)), imp, align='center') plt.yticks(range(len(names)), names) plt.show() fe

浏览 0提问于2017-01-13得票数 6

2回答

scaler在Sklearn和交叉验证中的应用

python、scikit-learn、pipeline、cross-validation

我以前看到过一个，它的代码如下： scalar = StandardScaler() clf = svm.LinearSVC() pipeline = Pipeline([('transformer', scalar), ('estimator', clf)]) cv = KFold(n_splits=4) scores = cross_val_score(pipeline, X, y, cv = cv) 我的理解是:当我们应用标度器时，我们应该使用3中的4倍来计算的均值和标准差，然后将均值和标准差应用于所有4倍。在上面的代码中，我如何知道Sklearn在

浏览 0提问于2020-05-28得票数 1

2回答

我无法在情感分析中提高我的测试准确性

python、machine-learning、nltk、svm、text-classification

我不确定这是否是正确的地方，但我的测试精度总是在大约.40，而我可以使我的训练集的准确性为1.0。我试图做一个情绪分析的推特上的王牌，我已经注释了每一条推文的积极，消极或中性的极性。我希望能够根据我的模型预测新数据的极性。我尝试过不同的模型，但是支持向量机似乎给了我最高的测试精度。我不知道为什么我的数据模型的准确性这么低，但会感谢任何帮助或指导。 trump = pd.read_csv("trump_data.csv", delimiter = ";") #drop all nan values trump = trump.dropna() trump = t

浏览 4提问于2020-04-12得票数 0

回答已采纳

1回答

这算“数据泄漏”吗？

python、machine-learning、scikit-learn、knn

我试图调整我的k-最近的邻居模型与网格搜索。但是由于我的数据集不稳定，我需要首先标准化它。然而，我读过一篇教程，说明在进行k折叠交叉验证之前进行标准化会导致数据泄漏，因为验证集会影响培训集。我想问一下下面的代码块中是否存在这个问题。如果是的话，我怎样才能避免这种情况。谢谢! #Standardizing my data scaler = StandardScaler().fit(X_train) rescaledX = scaler.transform(X_train) #Using Grid Search and k-fold cross validation k_values =

浏览 2提问于2020-07-03得票数 0

回答已采纳

1回答

如何在sklearn的线性支持向量机中删除10%最高预测性的特征

python、python-2.7、scikit-learn、svm、sentiment-analysis

我正在使用scikit learn的线性支持向量机(LinearSVC)，我目前正在尝试删除10%的最具预测性的特征，用于在3个类别(积极，消极和中性)上进行情感分析，看看我是否可以在进行领域适应工作时防止过度拟合。有人知道该怎么做吗？提前说一句，谢谢你的帮助。下面是我的代码： from sklearn import svm from sklearn.feature_extraction.text import CountVectorizer as cv # Using linear SVM classifier clf = svm.LinearSVC() # Count vectorize

浏览 2提问于2014-08-23得票数 0

1回答

R中的支持向量机:求超平面方程(6维)并证明它是正确的

classification、r、svm

lin.6d<-read.csv("D:/Documents/Linear-6d.csv", header=TRUE) View(lin.6d) plot(lin.6d,col = ifelse(lin.6d$Class == 1, "red","blue")) library(e1071) # Package for Support Vector Machines svm.lin.6d <- svm(Class ~ ., data = lin.6d, type = "C-classification", k

浏览 0提问于2021-02-14得票数 0

1回答

在折叠验证设置中，我应该在哪里定义sklearn模型？

python、scikit-learn、k-fold

我是机器学习方面的新手，在K倍交叉验证方面有困惑.当我编写折叠for循环时，应该在哪里定义sklearn模型(而不是PyTorch模型)。我看过一些教程，其中他们在折叠for循环中定义了模型，并使用相同的模型在X_validation上进行了预测。但是，我们将在循环内部定义k-不同的模型，最后的模型将是仅在最后一个折叠上训练的模型，它与前一个折叠没有任何联系。在我看来，我们应该在Kfold交叉验证之外定义一个Scikitlearn模型，请向我解释我的想法是否正确，或者是否存在与此方法相关的数据泄漏问题？下面是我在我的项目中使用的实现，在这里，我已经定义了k折叠for loop中的sklea

浏览 3提问于2021-02-27得票数 1

1回答

用于多类分类的SVM、OVO和OVA中超参数的调整

python、scikit-learn、classification、svm、gridsearchcv

假设我正在处理一个多类分类问题(具有N类)，并且我想使用支持向量机作为分类方法。我可以采用两种策略:一对一(OVO)和一对一(OVA)。在第一种情况下，我需要训练N(N-1)/2分类器，即class1 vs class2, ..., class1 vs classN, ..., class(N-1) vs classN，而在第二种情况下，我只需要训练N，即class1 vs rest, ..., class N vs rest。据我所知，这两个场景的典型(和一般)代码，包括超参数的调优，将如下所示： OVO from sklearn import svm from sklearn.mode

浏览 19提问于2021-01-05得票数 2

1回答

训练时监测val_loss

machine-learning、keras、monitoring、loss-function

我有一个简单的问题，使我突然怀疑我的工作。如果我只有一个培训和验证集，我是否允许在培训期间监视val_loss，还是这增加了我的培训的偏见。我想在我的验证集的训练结束时测试我的准确性，但是突然我想如果我在训练时监视那个数据集，那会有问题吗？还是没有？

浏览 1提问于2019-05-15得票数 1

回答已采纳

1回答

在R中调整线性支持向量机模型时，是否有负极子的存在？

r、machine-learning、svm

我使用下面的调优代码来为我的svn模型找到最好的情况和epsilon。 tuneResult <- tune( svm, labels ~ ., data = dataset, ranges = list(epsilon = seq(-5.0, 5, 0.1), cost = 2^(0:3))) 但令人惊讶的是，它暗示了cost = 4和epsilon = -5！然后，我用这些参数训练了模型，并用confusionMatrix进行了测试。不幸的是，模型不像没有这些参数的模型那样精确。 model1 <- svm(labels ~ ., da

浏览 0提问于2018-08-15得票数 1

回答已采纳

1回答

模型拟合和交叉验证

python、scikit-learn、svm、cross-validation

我正在训练一个数据集，然后在其他一些数据集上测试它。为了提高性能，我想通过5倍交叉验证来微调参数。然而，我认为我没有编写正确的代码，因为当我尝试将模型匹配到我的测试集时，它显示它还没有适合它。我认为交叉验证部分符合模型？或者也许我必须提取它？下面是我的代码： svm = SVC(kernel='rbf', probability=True, random_state=42) accuracies = cross_val_score(svm, data_train, lbs_train, cv=5) pred_test = svm.predict(data_test)

浏览 0提问于2019-12-02得票数 0

2回答

如何通过Python机器学习模型运行测试数据？

python、machine-learning、scikit-learn、logistic-regression

所以我终于用Python完成了我的第一个机器学习模型。最初，我使用一个数据集并按这样的方式分割它： # Split-out validation dataset array = dataset.values X = array[:,2:242] Y = array[:,1] validation_size = 0.20 seed = 7 X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed

浏览 5提问于2017-09-21得票数 1

回答已采纳

1回答

获取RFECV科学工具包中的特性-学习

python、scikit-learn、cross-validation、rfe

受此启发：我想知道是否有一个特定分数的功能：在这种情况下，我想知道，所选的10个特性在#Feature= 10时给出了峰值。有什么想法吗？编辑：这是用来获取该情节的代码： from sklearn.feature_selection import RFECV from sklearn.model_selection import KFold,StratifiedKFold #for K-fold cross validation from sklearn.ensemble import RandomForestClassifier #Random Forest # The

浏览 0提问于2018-05-17得票数 9

回答已采纳

1回答

为什么我所有的支持向量机的结果都是相同的，在科学知识学习？

machine-learning、scikit-learn、svm、libsvm

我正在尝试使用scikit学习来计算多类数据集的概率。然而，由于某种原因，我得到了每个例子相同的概率。知道发生了什么事吗？这与我的模型，我对库的使用，或者其他什么有关吗？感谢你的帮助！ svm_model = svm.SVC(probability=True, kernel='rbf',C=1, decision_function_shape='ovr', gamma=0.001,verbose=100) svm_model.fit(train_X,train_y) preds= svm_model.predict_proba(test_X) train_X看起

浏览 3提问于2017-03-06得票数 0

回答已采纳