当将train()函数与交叉验证列车控制一起使用时，如何查看模型对测试集的预测？ - 腾讯云开发者社区

logistic-regression、auc、roc、validation

我有一个关于logistic回归模型和测试它的技巧的问题。我不太清楚我是否正确理解中华民国曲线是如何建立起来的。在计算ROC曲线时，是否发生了列车测试分裂，然后对基于训练分割的模型的技巧进行了测试？还是一个基于整个数据的模型只是对整个数据进行了测试？如果是第一种情况，是否有必要重复进行随机列车试验，并将曲线下的面积平均化？这会给模特的技能带来更多的确定性吗？谢谢。

浏览 0提问于2021-05-26得票数 0

3回答

如何利用LSTM对数据进行列车/试验的正确预测？

neural-network、lstm

我在这里看到一个悖论。如果我们使用训练/测试分割并评估我们的测试数据，我们可能会得到一个很好的分数，但是任何进一步的预测都是不可信的，因为模型没有训练测试数据并将它的序列包含在内存中。另一方面，我们可以将列车和测试序列上的数据训练为列车数据，但由于没有测试参考，因此无法评估我们的预测。如何正确预测LSTM模型？

浏览 0提问于2018-05-05得票数 1

3回答

首先，我要说，我读过许多关于交叉验证的文章，而且似乎有很多混淆之处。我对此的理解很简单：执行k-折叠交叉验证，即10倍，以了解10倍的平均误差。如果可以接受，则在完整的数据集上对模型进行培训。我试图在R中使用rpart并利用caret包构建一个决策树。下面是我正在使用的代码。 # load libraries library(caret) library(rpart) # define training control train_control<- trainControl(method="cv", number=10) # train the

浏览 0提问于2015-11-02得票数 10

1回答

如何使用GridSearchCV、cross_val_score和模型

python、gridsearchcv

我需要为ANN找到最佳的超视距，然后对最佳模型进行预测。我用KerasRegressor。我发现相互矛盾的例子和建议。请帮助我理解正确的顺序和使用什么参数时。我使用<code>E 110</code>列车<代码>E 211</code>数据集GridSearchCV.fit(X_Train, Y_Train)I上的GridSearchCV <code>E 211</code>数据集，并将其用于<code>D16<//code>在<code>E 117</code>测试代码&

浏览 2提问于2022-06-10得票数 0

1回答

关于cross_val_predict方法的混淆

python、machine-learning、scikit-learn

考虑一下这段代码： import pandas as pd df = pd.read_csv('module_5_auto.csv') df = df._get_numeric_data() y_data = df['price'] x_data = df.drop('price',axis=1) from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(x_data, y_data,

浏览 3提问于2021-08-07得票数 1

1回答

过拟合与数据分割

machine-learning

假设我有一个数据文件，如：索引，product_buying_date，col1，col2 0,2013-01-16,34，Jack 1,2013-01-12,43，莫莉 2013年2，01-21，亚当 2014-01-09，54，Peirce 2014年4月-01-17，38，戈德堡 5,2015-01-05,72，钱德勒。。。。 20000,2015-01-27，32，Mike 用更多的数据，我有一个目标变量y，根据你的方便来做一些假设。现在我知道，我们把数据分成两部分，即训练和测试。然后将列车划分为70:30，用70%建立模型，用30%对模型进行验证。我们调整参数，使模型不过分适

浏览 4提问于2016-02-02得票数 0

回答已采纳

2回答

选择不同算法产生的最优模型。由列车组交叉验证产生的公制还是在测试集上产生的公制？

machine-learning、metric、performance

我知道，在一种不同的超参数算法所产生的模型之间进行选择，选择最佳模型的标准应该是对列车集的交叉验证。但是，如何在由不同算法生成的模型之间进行选择呢？我应该用哪一种度量来比较它们，由列车上交叉验证产生的度量，还是在测试集上产生的度量？还有为什么？

浏览 0提问于2021-02-14得票数 2

回答已采纳

1回答

如何在R中正确使用plsr()？

r、cross-validation

我正在学习R中的plsr，遇到了几个让我困惑的不同的例子。在以下两种方法中，我看到了两种方法来拟合和找到最佳数量的部件。我只想知道哪一种是合适的，哪一种更好？ 1)假设我们有一个叫做数据的数据，它被划分为列车数据data.train和测试数据data.test。然后，将plsr安装为 plsr.fit = plsr(formula, data = data.train, validation = "CV", scale = TRUE) summary(plsr.fit) 然后根据最小的ncomp值求出CV值。 2)不分割任何数据，只需将模型拟合成完整的数据。 plsr(form

浏览 4提问于2017-07-19得票数 0

回答已采纳

1回答

列车试验分裂后不平衡数据的欠采样

machine-learning、resampling、train-test-split

我是机器学习的新手，目前正在从事一个数据不平衡的项目。我想用随机抽样来平衡数据。我很困惑是应该在测试列车分裂后进行欠采样，还是应该先进行欠采样，然后再进行列车测试分割？我的方法是: 1.我用火车测试拆分得到: X_train，y_train用于培训，X_test和y_test用于测试。2.将X_train和y_train合并为一个数据集，进行欠采样。3.在欠采样后，进行了基于F1评分的交叉验证和模型选择，并利用X_test、Y_test进行了预测。我的方法正确吗？如果我错了，请纠正我。

浏览 1提问于2020-05-22得票数 5

1回答

Python:如何测试过拟合的RandomForest回归模型？

machine-learning、python、regression、random-forest、overfitting

我是这个领域的初学者，所以我可能做错了什么。我使用RandomForest作为回归模型，并想看看我的模型是否过分合适。以下是我所做的：编辑：我使用GridSearchCV进行超参数调优： rf = RandomForestRegressor(random_state=0) rf_params = {'n_estimators': [100, 500, 1000], 'max_depth': [3, 6, 9, None], 'min_samples_leaf': [2, 5, 10], 'max_featur

浏览 0提问于2020-12-15得票数 0

2回答

CNN模型的交叉验证技术

python、deep-learning、cnn、cross-validation

我在研究CNN的模型。和往常一样，我用批次和时代一起训练我的模型。当它完成训练和验证时，最后我使用一个测试集来衡量模型的性能并生成混淆矩阵。现在我想用交叉验证来训练我的模型。我可以实现它，但我脑海中有一些问题：为什么大多数CNN模型不使用交叉验证？ 2-如果我使用交叉验证，如何生成混淆矩阵？我是否可以将数据集拆分为训练/测试，然后在列车/验证集上进行交叉验证(即，除了通常的列车/测试外，交叉验证作为列车/验证)，并最终以同样的方式使用测试集？或者怎么做？

浏览 0提问于2019-03-22得票数 10

回答已采纳

1回答

交叉验证:来自scikit的cross_val_score函数-学习参数

python、machine-learning、scikit-learn、cross-validation、data-fitting

根据科学的DOC -学习 sklearn.model_selection.cross_val_score(estimator，X，y=None，groups=None，scoring=None，cv=None，n_jobs=1，verbose=0，fit_params=None，预调度=‘2*n_jobs’) X和Y X:数组--像数据一样适合。例如，可以是列表，也可以是数组。 Y:类似数组的，可选的，默认的:在有监督学习的情况下，没有一个目标变量可以尝试预测。我想知道X，y是X_train和y_train还是X，y应该是整个数据集。在kaggle的一些笔记本中，有些人使用整

浏览 1提问于2018-05-04得票数 4

回答已采纳

1回答

为什么交叉验证给出的分数总是高于正常拟合和评分？

scikit-learn

我试图了解sklearn交叉验证和评分是如何工作的，并观察到一些奇怪的行为。我实例化了一个分类器，然后对它进行了4次交叉验证，在90%的准确率+- 0.5%的范围内得到了4分。然后在所有的训练数据上重新定义模型，并在测试数据上进行评分。我也在这里的训练数据代码中打分，只是为了证明一点。在将数据拆分为测试集和训练集之后，我运行此代码。 from sklearn.ensemble import GradientBoostingClassifier from sklearn.metrics import make_scorer, balanced_accuracy_score gbc = G

浏览 1提问于2019-04-24得票数 5

3回答

我应该只在训练集上执行交叉验证吗？

cross-validation、kaggle

我正在使用从Kaggle下载的数据集。数据集已经划分为两个列车和测试的CSV。我用训练集建立了一个模型，因为我把列车CSV导入了木星笔记本。我预测使用列车CSV本身。我想进行交叉验证。我是否应该对列车CSV进行交叉验证，并再次将其分成两部分:列车和测试？或者，我应该导入一个新的CSV文件测试并将两个CSV合并成一个吗？

浏览 0提问于2019-08-17得票数 6

回答已采纳

1回答

机器学习中学习曲线的解释

machine-learning

在学习课程时，我想测试在另一个数据集上学到的内容，并绘制不同算法的学习曲线。我(相当随机地)选择了，并尝试将线性回归应用于它。 Note：我知道这可能是个糟糕的选择，但我想先从线性reg开始，看看其他模型如何更适合。我训练了一个线性回归，并绘制了以下学习曲线：这个结果对我来说特别令人惊讶，所以我对此有疑问：这条曲线甚至是可能的，还是我的代码一定有缺陷？如果是正确的，当添加新的训练示例时，训练错误怎么会增长这么快呢？如何使交叉验证误差低于列车误差？如果不是，有什么提示告诉我哪里出了错吗？这是我的代码(Octave / Matlab)，以防万一：情节:

浏览 0提问于2015-07-31得票数 2

回答已采纳

1回答

TimeSeriesSplit -如何聚合(或非筒仓)分裂？

python、scikit-learn、time-series

网上有很多例子显示如何使用TimeSeriesSplit创建多个培训/测试集。然而，他们并没有展示如何在实践中真正地聚合这些信息。例如，这是从scikit学习文档中提供的： from sklearn.model_selection import TimeSeriesSplit X = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2], [3, 4]]) y = np.array([1, 2, 3, 4, 5, 6]) tscv = TimeSeriesSplit(n_splits=5) for train_index, test_index i

浏览 0提问于2019-03-18得票数 0

回答已采纳

1回答

如何进行交叉验证训练？选择哪一种f1评分？

cross-validation、ensemble-modeling、ensemble-learning、ensemble

我在两个由相似算法组成的模型中得到了相似的结果。带有cv=10的型号1的F1“微”为0.941。请参阅下面的代码。型号2仅火车试验分裂(无cv)有F1‘微’0.953。这是我的理解问题。在我做网格搜索以找到最好的超参数之前。现在我只想做一个交叉验证来训练数据集。就像照片上的红色。在代码中，仍然存在网格搜索。问题1:这段代码是否实现了我想要的结果？(这是训练数据集的交叉验证吗？) 问题2:当我有两个模型，如图中的模型1和带有交叉验证(红色标记)的模型2和带有列车验证测试数据的模型2( -> )，选择带有交叉验证的模型1的原因是什么?为什么？ 📷 X = df.drop('co

浏览 0提问于2020-10-31得票数 0

回答已采纳

2回答

机器学习(Python) -异常精确99.9%

python、machine-learning、logistic-regression、prediction

最近，我从kaggle (形状: 1646801,150)的数据集上建立了一个预测模型(Logistic回归)。然而，经过简单的预处理，我得到了99.9%的异常精度。数据：脚步声：将不同的loan_status ('Fully_Paid‘、'Default’、'Charged‘)映射为default (0,1) 查找每个列的空值的计数，如果null > 10000，则删除列如果删除带有其他空值的行，则形状将留下(814392，51)。删除等级，并将sub_grade ('A1'，'A3')映射为整数

浏览 0提问于2018-06-21得票数 0

2回答

拉索回归怀疑

r、regression、statistics、linear-regression

我试图解决一个基于线性回归的问题(预测销售额，这是一个连续变量)。对于这个问题，我使用了线性回归，但是有一个建议的解决方案是用Lasso回归。然而，用户已经使用了列车功能。我不明白为什么要使用火车功能。是拉索的语法吗？岭回归也采用了类似的函数。 my_control = trainControl(method="cv", number=5) Grid = expand.grid(alpha = 0, lambda = seq(0.001,0.1,by = 0.0002)) lasso_linear_reg_mod3 = train(x = Train[, -c(1,2)],

浏览 0提问于2018-06-24得票数 1

1回答

什么是科学学习中的输出交叉验证模型(又名估计)？

python、machine-learning、scikit-learn、classification、svm

我在python中编写了一段代码，使用scikit-learn模块执行支持向量机分类，并进行递归的特征消除和交叉验证： svc = SVC(kernel="linear") rfecv = RFECV(estimator=svc, step=1, cv=StratifiedKFold(y_train, 2), scoring='f1') svc.fit(X_train, y_train) rfecv.fit(X_train, y_train) 不幸的是，我无法理解为什么使用交叉验证模型(rfecv.fit)时的输出分类与默认模型(svc.fit)不同。交叉验

浏览 2提问于2015-03-24得票数 0

回答已采纳

1回答

嵌套交叉验证与整体模型验证

python

我想使用dataset上的决策树模型来预测二进制目标变量。我已经清理了我的数据，并将我的数据分成功能和目标。然后，我将这些数据分成测试和训练： X_train, X_test, y_train, y_test = train_test_split( feature, target, test_size = 0.2, random_state = 100) 我已经将列车数据分割成火车并验证： X_train, X_test, y_train, y_val = train_test_split( feature, target, test_size = 0.2, random_state =

浏览 1提问于2018-03-30得票数 2

回答已采纳

1回答

如何使用交叉验证来使用培训、验证和测试集确定最终模型

r、machine-learning、cross-validation

我很难理解哪些数据集需要用于模型选择阶段和最终的模型测试阶段:培训、验证和测试。我试图在下面详细解释它，同时在底部张贴可重复的代码。谢谢您的建议和建议！假设我们使用Kaggle上可用的开放数据集来创建关于特性的预测，同时使用RMSE作为我们的错误度量。(我在这里询问更多关于简历背后的概念，而不是针对最低的RMSE)。，我们首先从原始的数据集led中划分一个训练和测试集led_train和led_test。接下来，我们用y= Life expectancy和x= GDP建立了一个具有led_train =数据的线性模型，并对随机森林模型和knn模型进行了同样的处理，使用的是使用Caret包的

浏览 0提问于2020-07-29得票数 0

1回答

如何在机器学习模型中使用train.csv、test.csv和ground_truth.csv？(交叉验证/ python)

python、numpy、machine-learning、scipy、cross-validation

到目前为止，我只有一个数据集(df.csv)。到目前为止，我使用了20%的验证大小和.train_test_split作为一个正常的回归模型。 array = df.values X = array[:,0:26] Y = array[:,26] validation_size = 0.20 seed = 7 X_train, X_validation, Y_train, Y_validation = cross_validation.train_test_split(X, Y, test_size=validation_size, random_state=seed) num_f

浏览 2提问于2016-10-10得票数 0

回答已采纳

2回答

在分割数据之前使用单个StandardScaler正确吗？

machine-learning、scikit-learn

我看到了一些使用两个不同StandardScaler的实验，如下所示： scaler_1 = StandardScaler().fit(X_train) train_sc = scaler_1.transform(X_train) scaler_2 = StandardScaler().fit(X_test) test_sc = scaler_2.fit(X_test) 我理解不应该偏倚分类器混合训练/测试数据，但我想知道另一个场景是否正确： # X_all represents X feature vector before splitting (train + test) X_scale

浏览 1提问于2020-07-22得票数 3

回答已采纳

3回答

为什么我们每次都需要重新创建模型？

python、logistic-regression、k-fold

这里我有一段python代码，取自SoloLearn， scores = [] kf = KFold(n_splits=5, shuffle=True) for train_index, test_index in kf.split(X): X_train, X_test = X[train_index], X[test_index] y_train, y_test = y[train_index], y[test_index] model = LogisticRegression() model.fit(X_train, y_train) scores.appe

浏览 4提问于2020-09-10得票数 1

2回答

特性缩放(标准化)、LabelEncode和OneHotEncode数据的最佳实践是什么？

python、pandas、machine-learning、scikit-learn、data-mining

这里有训练数据(x_train)、测试数据(x_test)和all_data，它们结合了培训和测试数据。那么，如果我们对我们的数据进行标准化，您认为哪一个是最佳实践？假设我们用熊猫和雪橇 from sklearn.preprocessing import StandardScaler scaler = StandardScaler() 对列车数据进行标准化，然后应用于测试数据，代码如下： scaler.fit(x_train) x_train=scaler.transform(x_train) x_test=scaler.transform(x_test) 在all

浏览 5提问于2017-01-06得票数 3

1回答

K-折叠交叉验证查询

python、machine-learning、scikit-learn、cross-validation、roc

我正在尝试执行K折叠交叉验证和GridSearchCV，以优化我的梯度提升模型-遵循链接- 。关于示范报告的截图，我有以下几个问题： 1)如何计算0.814365的精度？在脚本中，它在哪里进行火车测试拆分？如果将cv_folds=5更改为cv_folds=any整数，则精度仍为0.814365。事实上，删除cv_folds和输入performCV=False也提供了相同的精度。 (注意:我的sk学习编号CV 80/20列车测试的准确度在0.79-0.80之间) 2)再一次，AUC评分(列车)是如何计算的？这应该是中华民国，而不是澳洲大学吗？我的sk学习模型给出了一个大约0.87的AUC。就像

浏览 1提问于2018-09-14得票数 0

回答已采纳

1回答

如何在GridSearchCV中正确选择最佳模式--学习和插入都是错误的

python、r、algorithm、machine-learning、scikit-learn

考虑3个数据集-列车/val/测试。GridSearchCV默认选择交叉验证分数最高的最佳模型。在现实世界中，预测必须准确，这是选择最佳模型的可怕方法。原因是因为这就是它应该如何使用的原因：用于模型学习数据集的-Train集 -Val集用来验证模型在火车集合中学到的知识，并更新参数/超参数，以最大限度地提高验证分数。 -Test集-测试你的数据在看不见的数据。 -Finally在活动设置中使用该模型，并记录结果以查看结果是否足以做出决策。令人惊讶的是，许多数据科学家只是在选择验证分数最高的模型的基础上，冲动地在生产中使用他们受过训练的模型。我发现网格搜索可以选择那些非常适合的模型，并且在预测

浏览 1提问于2019-10-31得票数 5

1回答

我应该使用Matlab中的哪个函数来验证Model forecast()或predict()？

matlab

我使用了两种类型的模型对具有时间序列数据的SISO系统进行建模。第一个是ARIMAx，第二个是Output-Error。现在，我应该知道这两个中的哪一个在预测输出方面表现最好，在我的情况下是15天，并且只有模型所需的观测输出才能正确初始化。在Matlab中，提供了两个似乎用于验证模型forecast()和predict()的函数。我一直在阅读预测和预测之间的区别，显然人们经常混淆这两个术语。我想知道我应该使用这两个中的哪一个来验证模型并选择最好的一个。主要的一点是，我必须测试模型在许多方面的性能。换句话说，模型如何在提前第一天、提前第二天到提前第15天进行预测。我写了以下代码作为示例： clo

浏览 0提问于2017-10-24得票数 0

2回答

训练和验证精度高，测试精度差

machine-learning、keras、deep-learning、vgg-net、conv-neural-network

我试图分类2类图像。虽然经过10次测试，我获得了较高的训练和验证精度(0.97)，但我的测试结果很糟糕(精度为0.48)，而混淆矩阵显示网络正在为错误的类(附加结果)预测图像。数据集中只有两个类，每个类有10,000个图像示例(增强后)。我正在使用VGG16网络。整个数据集被分割20%用于测试集(这个分割是通过从每个类中获取随机图像来执行的，因此它是被洗牌的)。其余的图像被分割成80%的训练和20%的有效集(如代码的ImageDataGenerator行所示)。因此，最终会有： 12,904幅列车图像，分属2类 2类3 224幅有效图像属于2个类的4,032个测试图像这是我的密码： de

浏览 4提问于2020-03-27得票数 2

1回答

如何从make_csv_dataset中获取编码器？

tensorflow、keras、tensorflow2.0

我使用了本教程中的代码： def get_train_dataset(file_path, **kwargs): dataset = tf.data.experimental.make_csv_dataset( file_path, batch_size=10, # Artificially small to make examples easier to show. label_name=LABEL_COLUMN, na_value="?", num_epochs=1, ignore_errors=T

浏览 0提问于2019-12-29得票数 0

回答已采纳

2回答

是什么使验证集成为测试集的良好代表？

python、scikit-learn、cross-validation、class-imbalance

我正在开发一个使用不平衡数据集的分类模型。我试图使用不同的抽样技术来提高模型的性能。对于我的基线模型，我定义了如下所示的AdaBoost模型： from sklearn.model_selection import KFold kf = KFold(n_splits=5, shuffle=False) ada = AdaBoostClassifier(n_estimators=100, random_state=42) params = { 'n_estimators': [50, 100, 200],

浏览 0提问于2020-09-29得票数 0

回答已采纳

2回答

如何手工交叉折页评估韦卡中的朴素贝叶斯？

java、weka

我使用的是自己的单词模型，而不是wekas StringToWordVector (结果是一个错误，但因为这只是一个学校项目，我想用我的方法完成它)，所以我不能使用它的CrossFoldEvaluation，因为我的BoW字典也会包含培训数据的单词。 for (int n = 0; n < folds; n++) { List<String> allData = getAllReviews(); // 2000 reviews List<String> trainingData = getTrainingReviews(n, folds); // ra

浏览 13提问于2018-01-02得票数 2

回答已采纳

2回答

滑雪GridSearchCV模型的拟合

python、machine-learning、scikit-learn、random-forest、grid-search

我试图在上解决一个回归问题，借助，.I使用来选择最佳的超参数。问题1 我应该把GridSearchCV放在X_train, y_train上，然后得到最好的参数吗？或我应该把它放在X, y上才能得到最佳参数吗？(X，y=整个数据集) 问题2 如果我把它放在X, y上，得到最好的参数，然后在这些最佳参数上建立一个新的模型。现在我该如何训练这个新模式呢？我应该在X_train, y_train或X, y.上训练新型号问题3 如果我在X,y上训练新的模型，我将如何验证结果？到目前为止我的代码 #Dataframes feature_cols = ['CRIM'

浏览 1提问于2018-11-23得票数 7

1回答

ML回归模型的验证与预测

machine-learning、python、time-series、regression、xgboost

我有一年的电力数据，每隔15分钟一次，加上天气数据和一周的时间，一个热门的虚拟变量。使用列车/测试拆分是验证模型的一种好方法吗？我试图用更多的变量来预测电力，比如天气和一周时间的假人。首先，我在状态模型中用OLS回归剔除了一些虚拟变量，然后尝试用XG对模型进行拟合。有没有人会有更好的方法来拟合时间序列数据，验证ML模型，然后尝试用回归来预测电力呢？我的一些用于ML培训过程的Python代码： # shuffle the DataFrame rows df2 = df2.sample(frac=1) train, test = train_test_split(df2, test_size

浏览 0提问于2023-04-06得票数 0

回答已采纳

1回答

random_state在train_test_split中是否会影响模型的实际性能？

python、machine-learning、scikit-learn、linear-regression、train-test-split

我明白为什么一个模型的分数对于每个random_state是不同的，但是我确实期望最高和最低分数之间的差异(从random_state 0到100)是0.37，这是很多的。也尝试了十倍交叉验证，差别还是有点大。所以这是否真的很重要，还是我应该忽略它？ (下载->数据文件夹-> student.zip -> student mat.csv) 完整法典： import pandas as pd acc_dic = {} grade_df_main = pd.read_csv(r'F:\Python\Jupyter Notebook\ML Projects\data\

浏览 4提问于2020-06-28得票数 1

回答已采纳

1回答

我是否正确地使用了GridSearch，还是需要使用所有数据进行交叉验证？

python、cross-validation、training、grid-search

我正在处理一个数据集，它有400个观测值，34个特性和相当多的异常值，其中一些是极端的。鉴于我的数据的性质，这些需要在模型中。首先，我对我的数据进行了75-25的分割，把这25%的数据放在一边。在火车组中，我使用了GridSearchCV，RepeatedKFold为10倍，7次重复，这返回了我的best_estimator结果，当我们进入.cv_results_时，我们看到它是mean_test_score的度量。然后我称之为“交叉验证分数”。然后，在符合这个模型的情况下，我在测试集上运行它，名为grid.score(X_test，y_test)，并称它为我的测试分数。 def rf(d

浏览 0提问于2019-05-12得票数 1

回答已采纳

4回答

为什么我在手工拆分测试和训练数据而不是使用Python拆分函数时得到不同的结果？

python、dataframe、modeling

如果我通过train_test_split函数使用数据运行一个简单的dtree回归模型，我就可以得到很好的r2分数，而且mse值也很低。 training_data = pandas.read_csv('data.csv',usecols=['y','x1','x2','x3']) y = training_data.iloc[:,0] x = training_data.iloc[:,1:] X_train, X_test, y_train, y_test = train_test_split(x, y, tes

浏览 0提问于2019-09-01得票数 1

回答已采纳

2回答

如何从培训数据中获得RMSE？

python、scikit-learn、metrics、training-data

我有个问题。我发现了这个问题有人写道：如果你已经建立了一个很好的模型，你的训练和测试集的RMSE应该是非常相似的。另一个人写道：列车=>的RMSE测试> RMSE对数据的拟合。在数据拟合的情况下，试验的RMSE <列车=>的RMSE。我认为RMSE的测试数据是 y_pred = knn.predict(X_test) rmse = metrics.mean_squared_error(y_test, y_pred , squared=False) 但是，我如何才能获得我的训练数据的RMSE (或其他指标)？也许是 rmse = metrics.

浏览 5提问于2021-12-12得票数 -1

1回答

在MATLAB中实现支持向量机模型交叉验证的不同方法

matlab、machine-learning、svm、cross-validation、supervised-learning

假设我们在MATLAB R2015b中有以下代码： SVMModel = fitcsvm(INPUT, output,'KernelFunction','RBF','BoxConstraint',1); CVSVMModel = crossval(SVMModel); z = kfoldLoss(CVSVMModel) 在第一行中，采用fitcsvm模型进行孔数据训练。将Crossval设置为on in fitcsvm的目的是什么(默认情况下，这个选项有10倍的交叉验证)？crossval和kfoldLoss使用与上面相同的方法？如果是的话，

浏览 11提问于2016-02-13得票数 5

回答已采纳

1回答

我应该使用火车数据集上的MinMaxScaler来转换测试数据集，还是使用单独的MinMaxScaler来拟合和转换测试数据集？

machine-learning、dataset、normalization、predict、data-processing

假设我在一个ML问题中有3个数据集。 train dataset：用于估计ML模型参数(培训) test dataset：用于规避训练模型，计算训练模型的精度。 prediction dataset：仅用于模型部署后的预测我没有evaluation dataset，我使用网格搜索和k折叠交叉验证来找到最好的模型。另外，我有两个python脚本，如下所示： train.py：用于训练和测试ML模型、负载训练和测试数据集，保存所训练的模型，通过网格搜索找到最佳模型。 predict.py：用于加载预先训练的模型和负荷预测数据集，预测模型输出和计算精度. 在开始train.py培训之前，我使用M

浏览 4提问于2020-07-01得票数 0

回答已采纳

2回答

如何将K-折叠交叉验证的结果应用于我最初的测试集？

python、machine-learning、scikit-learn

我有一个数据集，我分裂成80%-20%的训练和测试集。在训练集上，我做k折交叉验证，得到准确性的平均值。但是，我不清楚该如何将这个结果应用于我的原始测试集？ #Splitting Training & Test dataset from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=1) #Standartisation scaling from sklearn.p

浏览 7提问于2022-09-29得票数 0

回答已采纳

1回答

为什么调优模型RFR模型时"Mae“增加？

python、random-forest、evaluation、grid-search

我有一个问题，当调优RandomForestRegressor参数时，平均绝对误差会增加。我已经将得分设置为neg_mean_absolute_error，但由于某种原因，它还在增加吗？我的数据集包含了300个变量中的100.000个观测结果，其中我使用了一个与test_size=0.2分离的火车/测试。我已经尝试了200个组合的随机网格搜索set，其中我设置了scoring=neg_mean_absolute_error。在测试数据上测量MAE时，我得到了一个mae=6500 (默认RFR模型)，而在调优模型上，我得到了一个mae=9000。它不是应该减少或者至少保持不变吗？在调整模型时

浏览 1提问于2019-08-12得票数 0

回答已采纳

1回答

我们如何使用k倍交叉验证来预测测试样本的目标？

python、sklearn-pandas

我正在尝试使用学习Python中的ML技术。我要做的是执行三重交叉验证，并使用来自Transported的特性预测目标变量( test.csv )。我唯一能做的就是在我的训练集上教一个模型，因为它包含了我的特性和我的反应。我想做的是： from sklearn.model_selection import train_test_split, cross_val_score, cross_val_predict, KFold from sklearn.neighbors import KNeighborsClassifier X, y = train_ready.drop('Tran

浏览 1提问于2022-04-24得票数 0

回答已采纳

1回答

正则化误差与过拟合

random-forest、machine-learning-model、overfitting、regularization

我收集了来自50个唯一块的数据，然后将49个块中的数据合并成一个数据集，并将数据从1个块中保存下来用于测试。然后，我使用train_test_split(sklearn)将合并的数据集从49个块中拆分。然后利用训练数据对随机森林回归者进行交叉验证训练，并在列车(0.99)和测试集(0.94)上得到较好的模型得分(R^2)。但是，当我在1块的保留数据上使用经过训练的模型时，性能非常差(-1.0)。如果我将所有50个区块的数据合并，然后使用训练测试分割，并保留60%的数据作为训练集，20%作为测试集，20% (保留集)，我从所有三组中获得好的分数。训练集得分(0.98)、测试集(0.93)和保

浏览 0提问于2020-07-15得票数 1

1回答

如何使用python中的测试集大小执行10折交叉验证

python-3.x、scikit-learn、linear-regression、cross-validation

如何使用LinearRegression()函数构建机器学习模型来预测客户的预期SpendValue 还可以使用10折交叉验证来测量模型的性能，测试集大小为20%。 ? X = sales.drop(['SpendValue'], axis=1).values y = sales.SpendValue.values print("The training dataset has {} examples and {} features.".format(X.shape[0], X.shape[1])) lr = LinearRegression() kf

浏览 55提问于2019-05-27得票数 0

2回答

如何通过Python机器学习模型运行测试数据？

python、machine-learning、scikit-learn、logistic-regression

所以我终于用Python完成了我的第一个机器学习模型。最初，我使用一个数据集并按这样的方式分割它： # Split-out validation dataset array = dataset.values X = array[:,2:242] Y = array[:,1] validation_size = 0.20 seed = 7 X_train, X_validation, Y_train, Y_validation = model_selection.train_test_split(X, Y, test_size=validation_size, random_state=seed

浏览 5提问于2017-09-21得票数 1

回答已采纳

1回答

Train_test_split网格搜索和交叉验证

python、cross-validation、sentiment-analysis、text-classification、train-test-split

我试着对文本进行情感分析，但我在步骤中迷失了方向。所以我的目标是： parametersEvaluate训练支持向量机、KNN和朴素贝叶斯算法()利用网格搜索找到最优的模型精度，并利用这些参数找到最优的，得到最优的结果。几乎在每个指南上，我都发现使用了train_test_split方法。但我读过的是，拒不接受交叉验证的方法并不是很精确。这是当你把数据分割成火车测试集，例如80:20，并持有20%的测试。因此，我想使用K-折叠交叉验证。但问题是，我如何使用它，我还需要将我的数据分割成火车测试集吗？到目前为止，我尝试的是： sentences = svietimas_data[

浏览 1提问于2022-04-30得票数 0

3回答

模型性能因列车试验的不同而不同？

machine-learning、random-forest、training

我将我的数据集与随机森林分类器相匹配，发现模型的性能在不同的训练和测试数据分割集之间会有所不同。正如我所观察到的，在ROC曲线下，AUC将从0.67上升到0.75 (在相同的参数设置下用相同的模型进行拟合)，下垫范围可能会更宽。那么，这种现象背后的问题是什么，以及如何处理这个问题呢？据我理解，交叉验证用于特定的列车和测试数据的分割。

浏览 0提问于2017-01-05得票数 2

回答已采纳

1回答

在学习中，火车测试拆分得分较高，CV得分较低

python、scikit-learn、virtual-machine、random-forest、cross-validation

我是数据科学的新手，一直在为Kaggle的问题而奋斗。用随机森林回归预测评分时，发现列车测试分割得分较高，而CV得分较低。 0.8746277302652172with 与列车测试split_randomforest无列车测试split_randomforest split_randomforest CV随机森林10.713885026374156 % import time import datetime import pandas as pd import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D i

浏览 2提问于2020-07-05得票数 0