在使用sklearn模型转换用于训练和预测的数据时，如何确保所有数据都是相同的数字？ - 腾讯云开发者社区

、、

我从sklearn.model_selection家族引进了train_test_split，我想对我的模型进行训练和测试，以便预测变量y。我将字符串数据类型指定为我的X ( dataset的特性/变量)，而我的y是一个整数数据集(响应)。在这样做之后，我从LinearRegression家族导入了sklearn.linear_model函数/方法，现在当我试图拟合模型时，它会显示一个错误。 can’t convert strings(X) to variable y 为什么？ X = df[['Avg. Area Income', 'Avg. Area House

浏览 2提问于2022-07-11得票数 1

1回答

巨蟒特征选择后的预测

、、、、

我正在尝试使用python构建一个预测模型。训练和测试数据集有400多个变量。在训练数据集上使用特征选择，变量数减少到180个。 from sklearn.feature_selection import VarianceThreshold sel = VarianceThreshold(threshold = .9) 然后利用梯度增强算法训练模型，达到.84交叉验证的精度。 from sklearn import ensemble from sklearn.cross_validation import train_test_split from sklearn.metrics impor

浏览 1提问于2016-04-06得票数 3

回答已采纳

1回答

有办法将pmml文件导入python吗？

、、、

我使用sklearn训练了一个模型，并使用sklearn2pmml将其导出为pmml格式。有没有一种方法可以将pmml文件转换回可以导入并在python中运行的东西？我之所以要这样做，是因为我注意到pmml模型与sklearn模型的行为方式略有不同。具体来说，pmml文件为变量设置硬上、下界(在训练集中使用变量的最大值和最小值)，而sklearn则不设置。当pmml模型遇到超出这些界限的数据时，我会遇到问题。这只是pmml模型和sklearn模型之间的一个不同之处，我希望能够将pmml文件重新导入python以运行它，并查看是否还有其他的。

浏览 3提问于2017-03-10得票数 1

1回答

适合多种模型，例如分类器、->堆叠、->校准，而不存在数据泄漏或获取过多的数据集。

、、

我有一些数据X，我想对这些数据执行以下操作：训练两种模型:支持向量机和Logistic回归使用基于(1)中的模型的堆叠分类器从(2)开始校准堆垛机。我们要训练一个没有训练过模型的数据的堆叠分类器，即我们可以有X_train和X_stack，在X_train上训练模型(1)，然后利用他们对X_stack的预测来训练(2)。然后，我们需要校准，因此我们需要另一个数据集X_cal。正如您所看到的，由于我们需要这些不同的数据集，所以对于(关键的)培训部分，现在丢失了大量的数据信息。我正在考虑使用交叉验证来完成这个任务，但我不确定应该如何做到这一点。注意，我的模型需要相当长的时间来训练，因此

浏览 0提问于2023-03-24得票数 0

1回答

规模输入训练的ML模型

、、、

我有输入数据，不同功能之间的大小差别很大。我使用sklearn的StandardScaler()对它们进行缩放，然后使用keras对这些数据进行神经网络训练，以预测我的目标。我训练过/测试过这个神经网络，它的性能很好。训练数据是一个更大模型的函数输入的时间序列，而我的目标是输出时间序列。我已经训练了模型的比例输入数据(离线)，但希望它取代在模型中的功能。然后，它将在每个时间步骤中接受非缩放的输入数据(相同的特征)，并对目标(输出)进行良好的预测。在离线的timeseries数据上进行培训，似乎不太适合在模型中使用不缩放的数据，一次一次，这是必须的。我是否也应该对在线输入进行缩放(以及如何使

浏览 0提问于2022-03-02得票数 0

1回答

向ONNX出口一个不合适的模型

我正在构建一个用于培训模型的API，并认为我希望使用ONNX来来回发送模型。我正在使用sklearn模型进行测试，在我将其导出到onnx之前，似乎需要对模型进行拟合。我想要定义一个自定义或标准的滑雪板模型，转换为onnx进行运输、重新打开和训练，保存在ONNX中。这真的可以吗？我的最终目标是拥有一个API，它可以在未经训练的状态下接受任何sklearn、tensorflow或类似的模型，然后在服务器上进行训练。

浏览 3提问于2022-07-07得票数 0

回答已采纳

1回答

支持向量机加载训练模型的准确性明显较低，是否也需要保存TokenCountVectorizer？

、、

在Liblinear或Libsvm上，我加载数据，将其分割成训练和测试，使我的准确率达到95%。此时，我保存模型和标签以供以后重用。现在的问题是，当我将保存的数据加载到我的模型中，并且测试预测方法，即使在使用训练的相同数据上，准确率也会下降到53%！用于构建模型的代码： $vectorizer = new TokenCountVectorizer(new WhitespaceTokenizer()); $tfIdfTransformer = new TfIdfTransformer(); $vectorizer->fit($samples); $vectorizer->tra

浏览 0提问于2018-06-27得票数 1

回答已采纳

1回答

如何向分类器模型提供一条推文？

、、、、

我正在编写一段python代码，其中包括使用自然语言处理分析数据集和验证twitter更新。我的随机森林模型工作得很好。 dataset = pd.read_csv('bully.txt', delimiter ='\t', quoting = 3) corpus = [] for i in range(0,8576): tweet = re.sub('[^a-zA-Z]', ' ', dataset['tweet'][i]) tweet = tweet.lower() tweet = t

浏览 12提问于2017-12-07得票数 1

2回答

ValueError在预测测试数据具有不同形状的单词向量的位置

、、、

下面是我的代码，我正在尝试文本分类模型； from sklearn.feature_extraction.text import TfidfVectorizer ifidf_vectorizer = TfidfVectorizer() X_train_tfidf = ifidf_vectorizer.fit_transform(X_train) X_train_tfidf.shape (3, 16) from sklearn.svm import LinearSVC clf = LinearSVC() clf.fit(X_train_tfidf,y_train) 到目前为止，只有训练集被

浏览 1提问于2020-07-09得票数 1

回答已采纳

1回答

如何改变滑雪板学习算法的训练阈值？

、、

我正在尝试使用sklearn来训练一个模型，但是，我想将决策阈值更改为训练模型。我发现的大多数结果都是用于测试集上的预测。

浏览 0提问于2020-08-31得票数 1

回答已采纳

3回答

利用PySpark在数据模型上应用sklearn训练模型

、、、

我用Python训练了一个随机森林算法，并希望用PySpark在一个大数据集上应用它。我首先加载了经过训练的sklearn模型(使用joblib)，将包含这些特性的数据加载到Spark数据框架中，然后添加了一个带有预测的列，该列具有用户定义的函数，如下所示： def predictClass(features): return rf.predict(features) udfFunction = udf(predictClass, StringType()) new_dataframe = dataframe.withColumn('prediction', udf

浏览 6提问于2017-05-31得票数 8

回答已采纳

2回答

Scikit-Learn:避免交叉验证期间的数据泄漏

、、

我刚刚阅读了k-折交叉验证，并意识到我在当前的预处理设置中无意中泄漏了数据。通常，我有一个训练和测试数据集。我在我的整个训练数据集上进行了一系列数据推算和one-hot编码，然后运行k折交叉验证。泄漏是因为，如果我进行5次交叉验证，我将在80%的训练数据上进行训练，并在剩余的20%的训练数据上进行测试。我真的应该根据80%的训练来推算这20% (而我之前使用的是100%的数据)。 1)这是考虑交叉验证的正确方式吗？ 2)我一直在研究sklearn.pipeline中的Pipeline类，它似乎对执行一系列转换，然后最终将模型拟合到结果数据很有用。然而，我正在做一系列的事情，比如“用均值来

浏览 9提问于2018-01-28得票数 11

1回答

fit_transform与进行推理时的转换

、

我已经训练了一个keras模型并保存了它。现在，我想在web应用程序中使用该模型进行推理。我想通过使用sklearn中的StandardScaler()对输入进行预处理。但是，每当我运行transform(inputs)时，就会出现一个错误，要求我先进行拟合。这就是代码 from sklearn.preprocessing import StandardScaler inputs = [1,8,0,0,4,18,4,3,576,9,8,8,14,1,0,4,0,0,3,6,0,1,1] inputs = scale.transform(inputs) preds = model.predict

浏览 1提问于2020-09-11得票数 0

2回答

机器学习中的预测函数是否理解分类数据？

、、、、

据我所知，在进行特征工程之前，必须将数据集分成训练数据和测试数据，以避免分析中的偏差。我还了解到，机器学习模型除了数字数据之外不理解数据，因此需要编码，这是特征工程的一部分。我的问题是，我是单独编码测试数据，还是预测函数理解分类数据。

浏览 0提问于2019-11-06得票数 1

回答已采纳

1回答

处理归一化回归输出

、、

我有一个回归模型，它是针对一系列特征和归一化目标进行训练的，所以当我使用该模型对新输入进行预测时，输出也是标准化的(不是规范化本身，但不是我期望看到的)。我该怎么处理呢？我尝试在sklearn中使用inverse_transform函数，这在大多数标度器中都是如此，但它并没有给出正确的结果。这可能是因为它还没有安装在这些数据上，因此不知道如何进行反求。我能做什么?

浏览 0提问于2019-01-15得票数 0

2回答

机器学习模型-盲测试

、

我在一个竞赛的模型中工作，我们得到了两个数据集： Dataset A：确实包含用于训练/测试模型的标签。Dataset B：不包含标签，此数据将用于盲测试，并根据预测分配分数。我已经准备好了模型，但是当使用函数predict()和Dataset B (用于盲测试)时，出现了一个问题，我是否必须应用应用于数据集A?中的相同的预处理步骤(删除重复、NAs、缩放数字特征)？在数据集B中，包含了几个NAs。提前谢谢你的帮助。

浏览 4提问于2017-10-04得票数 0

3回答

是否有可能使用比训练模型所用的特征数更少的特征来预测？

、

我正在使用sklearn.svm.SVC建立一个预测机器性能(ErrorID)的模型。在模型的训练中，我使用了6个特性，即EmployeeID、JobID、MachineID、Speed、RunningDateandTime、Meters和传递ErrorID作为标签。现在，对于预测，我只有RunningDateandTime，因为我想预测未来的性能。但由于训练时的特征数与预测时的特征数不一样，所以模型不接受。是否有任何方法可以强迫模型仅使用1个特征进行预测，同时对5个特征进行训练？

浏览 0提问于2019-07-04得票数 2

1回答

如何在经过训练的模型上使用新的数据集？

、、

我正在尝试使用一个新的数据集在一个以前受过训练的模型上，看看这个模型有多精确。我使用以下代码并接收以下错误。另一种方法能解决这个问题吗？谢谢 import pandas as pd from sklearn.svm import LinearSVC from sklearn.model_selection import train_test_split from sklearn.metrics import confusion_matrix from sklearn.metrics import accuracy_score from sklearn.preprocessing import

浏览 4提问于2020-06-08得票数 0

回答已采纳

1回答

基于40+预测变量的随机森林应用

、、、

我正在使用R软件包randomForest建立一个随机森林模型进行分类。最终，我需要根据历史数据为一组人选择五种方案中的一种。被预测的最后一个变量是"1，2，3，4或5“变量。我需要包含30-40个变量--它们的重要性也会被分析--为每个人做出决定。一开始，我训练一个模特没有问题。下面是一个用R的randomForest包训练的样本数据集。我正在运行这个包和RStudio的最新版本。 set.seed(101) train <- sample(1:nrow(Boston), 300) Boston.rf <- randomForest(medv~., data = Bo

浏览 0提问于2019-05-23得票数 0

回答已采纳

1回答

尽管训练和验证的精确度和召回率较高，但ResUNet分割输出较差

、、、、

我最近在血液样本图像上实现了一个寄生虫分割的RESUNET。这个模型在本文中描述，这里是代码。分割输出是二值图像。我用加权的二进制交叉熵损失来训练模型，由于我的图像中存在类的不平衡，因此赋予了寄生虫类更多的权重。最后一个输出层具有sigmoid激活。我计算精确度、召回率和骰子系数值来验证训练中的分割效果。在训练和验证方面，我得到了很好的数值结果：训练dice_coeff：.6895，f2: 0.8611，精度: 0.6320，召回率: 0.9563 验证val_dice_coeff：.6433，val_f2: 0.7752，val_precision: 0.6052，val_recall:

浏览 0提问于2019-10-18得票数 1

2回答

从keras生成器获取真正的标签

、、

我想使用sklearn.metrics.confusion_matrix(y_true, y_pred)为keras模型创建一个混淆矩阵。在训练模型之后，我可以使用predict_generator(generator)来获得对测试数据集的预测，这就给了我y_pred。如何从数据生成器中获得相应的真实标签，y_true？

浏览 48提问于2018-12-28得票数 4

回答已采纳

1回答

训练中一次热编码后用回归模型预测数据点的正确形状

、、、、

我正在编写一个使用线性回归的应用程序。就我而言，sklearn.linear_model.Ridge。我很难将我喜欢的数据池以正确的形式预测到Ridge。我简要地描述了我的两个应用程序以及问题是如何出现的： 1RST应用程序：我的数据点每个只有一个特性，它们都是String，所以我使用了一个热编码，以便能够在Ridge中使用它们。之后，数据点(X_hotEncoded)有9个特性： import pandas as pd X_hotEncoded = pd.get_dummies(X) 在将Ridge安装到X_hotEncoded和标签y之后，我用以下方法保存了经过训练的模型： from s

浏览 2提问于2017-07-10得票数 6

回答已采纳

1回答

如何使用带countVectorizer.fit_transform()的酸洗分类器对数据进行标记

、、

我在一组简短的文档上训练了一个分类器，并在得到一个二进制分类任务的合理f1和准确性分数之后对它进行了腌制。在培训过程中，我减少了使用sciki学习countVectorizer cv的特性数量： cv = CountVectorizer(min_df=1, ngram_range=(1, 3), max_features = 15000) 然后使用fit_transform()和transform()方法获得转换后的列车和测试集： transformed_feat_train = numpy.zeros((0,0,)) transformed_feat_test =

浏览 8提问于2014-09-23得票数 5

回答已采纳

1回答

标准化后如何在新数据上使用保存好的神经网络

、、、、

我用TensorFlow和Keras构建并训练了一个神经网络，它对我的数据非常有效。在使用这些数据之前，我使用sklearn中的StandardScale()对其进行标准化。I fit_transform()训练数据，并且只转换()测试和验证数据。最后，我救了我的模特。现在我想使用这个模型来处理新的数据。我想我也需要转换()这个数据，但是我该如何做呢？我的数据与训练数据集的fit_transform()函数中的所有参数进行了转换。如果我在我的新数据中使用fit_transform()，我会得到更糟糕的结果，而不是像我进行验证和测试数据那样对它们进行转换。是否有方法存储来自fit_tra

浏览 3提问于2021-05-25得票数 0

回答已采纳

1回答

使用sklearn进行音乐流派分类:如何准确评估不同的模型

、、、

我正在做一个项目，对来自5个不同流派(摇滚，电子，说唱，乡村，爵士)的30秒音频样本进行分类。我的数据集包含600首歌曲，每个流派恰好有120首。特征是每首歌曲的13个mfcc的一维阵列，标签是流派。基本上，对于30秒样本的每帧，我取每组13个mfcc的平均值。这导致每首歌曲有13个mfcc。然后，我获得整个数据集，并使用sklearn的缩放函数。我的目标是比较svm、knearest和naive bayes分类器(使用sklearn工具集)。我已经做了一些测试，但我注意到结果会根据我是否进行随机采样/分层采样而有所不同。我在sklearn中执行以下函数来获取训练和测试集： X_train

浏览 3提问于2017-05-15得票数 1

3回答

基于随机森林的预测模型

、

我已经建立了一个随机的森林分类模型，以学习，但我不知道如何确定我的预测。我已经建立了模型，并在测试数据上显示了良好的效果。我的平均准确率为85%。预测股票价格是涨是跌。我使用了雅虎金融的数据，包括开放，高，低，关闭和数量。在此基础上，编制了RSI、ROC、随机振荡(快、慢)、macd、平衡体积、200天移动平均等技术指标，并将其作为随机森林分类器的特征(自变量)。我创建了另一个专栏，显示价格上涨时的1和价格下降时的0。此列用作因变量。(我想预测的是) 我现在想弄清楚的是，我怎样才能预测未知的未来？目前，我已经将我的数据分成训练和测试，在训练数据集上训练模型，然后在测试数据集上使用预测函数。该

浏览 0提问于2021-07-08得票数 2

回答已采纳

1回答

我怎样才能让我受过训练的模特做好生产准备？

、

我成功地使用sklearn的多元线性回归训练了我的模型。这是我使用的代码： import pandas as pd dataset = pd.read_csv('C:\\mylocation\\myfile.csv') dataset2 = pd.get_dummies(dataset) y = dataset.iloc[:, 31:32].values dataset2.pop('Target') X = dataset2.iloc[:, :180].values #Split the dataset from sklearn.cross_validati

浏览 0提问于2018-12-31得票数 0

回答已采纳

2回答

使用Keras load_model()加载模型时预测错误，就好像没有发生模型训练一样。只有EMNIST数据集才会发生这种情况

我已经使用EMNIST byclass数据集通过加载训练和测试数据的.csv文件以及数字(0-9)和字母(A-Z，a-z)分类的标签来训练我的模型。我得到了大约87%的模型评估准确率。但是，当我使用keras load_model()使用最佳保存的模型权重(.hdf5)时，它给出了奇怪的结果，就好像没有进行任何训练一样。但是在加载模型之后，如果我运行模型评估，iyt仍然会给我87%的准确率。那么，在对任何新图像进行预测时，如果我得到错误的预测，会出现什么问题？谢谢

浏览 92提问于2018-02-09得票数 -1

1回答

在训练\测试拆分之前，我应该进行标准化和去趋势吗？

、、、

我是python新手，正在尝试执行一个随机森林回归任务。我导入了总共有5列(包括date列)的数据集。我的数据是时间相关的，所以我不能使用训练/测试拆分。因此，我改为执行以下操作 feature_cols = [ 'Rainfall' ,'Temperature','Usage amount'] target_v = df['water level'] X = df[feature_cols] y = target_v 然后，我使用sklearn中的时间序列拆分将我的数据拆分成训练和测试 from sklearn.model_

浏览 22提问于2020-05-12得票数 1

回答已采纳

2回答

支持向量机二值分类器对所有测试数据进行预测

、、

我有一个有10个特性的分类问题，我必须预测1或0。当我训练SVC模型时，随着列车测试的分割，数据的测试部分的所有预测值都是0。数据具有以下0-1计数： 0：1875年 1：1463年培训该模型的代码如下： from sklearn.svm import SVC model = SVC() model.fit(X_train, y_train) pred= model.predict(X_test) from sklearn.metrics import accuracy_score accuracy_score(y_test, pred)` 为什么要预测所有病例的0？

浏览 0提问于2019-09-18得票数 0

1回答

这个混淆矩阵正确吗？

、、、

我在试着把动物声音分类。我正利用CNN来实现这个目的。我正在比较这些课程，因此，一些培训将通过两个课程来完成。一旦我得到了这些培训的混淆矩阵，我就会遇到这样的情况：可以看出，这个模型似乎预测一切都是正确的。另一方面，当我将门槛从0.5提高到0.8时，我发现有一些错误分类。这实际上是我所期望的，但我感到困惑的是，当我获得精确性、精确性、回忆性和f1分数时，我看到的值低于1，而且它们都是相同的，就像在图片中一样。然而，我认为它们都是1，因为没有错误的分类。我说错了吗？你能解释一下吗？提前结束。注意，我的数据有两个类，每个类都有1200条记录。我用CNN模型训练他们。20%的数据被用作测试

浏览 7提问于2022-02-05得票数 -4

回答已采纳

1回答

为什么交叉验证的性能比测试差？

、、、、

在下面的代码中，我用X_test (特性)和y_test (标签)数据拟合了一个LogisticRegressionCV模型。然后，使用该模型，我应用了10折的cross_val_predict来使用CV评估性能。我计算了两个不同的AUC分数，一个使用roc_auc_score方法进行预测，另一个使用auc方法进行概率计算。 #CV LOGISTIC REGRESSION classifier = linear_model.LogisticRegressionCV(penalty='l1',class_weight='balanced', tol=0.01,

浏览 52提问于2019-06-27得票数 1

1回答

如何将经过训练的KNN分类模型应用于新数据？

、、、

我试图完成一个分类项目，在那里使用KNN算法，工作非常好。然而，问题是，我已经训练了模型，并将其保存为RDS文件。我想知道如何将模型应用于一些新的数据？例如，对于回归，您可以使用函数predict()，其中它使用已经训练过的模型作为参数，而对于knn()，它只使用训练过的数据集和测试数据集，并且没有办法使用已经训练过的knn模型作为参数，而不是使用火车数据集。有什么函数可以用经过训练的knn模型作为依据来预测新数据的分类吗？

浏览 4提问于2022-05-10得票数 -1

1回答

XGBoost:测试数据中的特性可以是用于训练模型的特性的子集吗？

、

如果测试数据仅包含用于训练xgboost模型的特性子集，这是否是一个问题？我的所有预测变量(1除外)都是因素，所以在将其转换为xgb.DMatrix之前先进行一次热编码。因此，不同级别的因素变量成为特性，而我的测试并没有所有这些特性，只有一个子集。目前，当我在R中的测试数据上运行我的模型时，我遇到了一个错误：“存储在对象和新数据中的特性名称是不同的！” 我是新来的，所以任何帮助都会很感激。谢谢!

浏览 0提问于2019-06-14得票数 2

回答已采纳

1回答

面向神经网络的Scikit训练测试问题

我正在尝试为虹膜data.The代码训练神经网络模型，当我将训练和测试数据分成50%时，效果很好，但是当数据分成60%用于训练，40%用于测试时，我得到的error.This是我的代码。 from sklearn.cross_validation import train_test_split X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.4,random_state=1) clf = MLPClassifier(solver='lbfgs', alpha=1e-5,hidden_layer_si

浏览 2提问于2017-08-27得票数 0

回答已采纳

1回答

如何在时间序列数据上创建模型并进行更新？

、、、

我有一个23k行的大型数据集。这些数据如下所示： import pandas as pd d = {'Date': ["1-1-2020", '1-1-2020', "1-2-2020", "1-2-2020"], 'Stock': ["FB", "F", "FB", "F"], "last_price": [230,8,241,9], "price":[241,9,240,8.5]} df

浏览 3提问于2021-09-25得票数 0

2回答

用彩色和灰度图像训练数据集

、

我正在努力训练cnn的面部性别和年龄检测模型。我的训练集包含彩色和灰度的面部图像。如何规范此数据集？或者如何处理混合灰度图像和彩色图像的数据集？

浏览 4提问于2018-01-13得票数 4

回答已采纳

1回答

评估缩放的RMSE

、

我是机器学习的新手，我想知道在数据缩放时如何评估RMSE。我使用了加利福尼亚州的住房数据集，并使用SVR对其进行了训练： from sklearn.datasets import fetch_california_housing housing = fetch_california_housing() X = housing["data"] y = housing["target"] from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test

浏览 43提问于2020-10-01得票数 0

回答已采纳

1回答

XGBoost回归预测

、、

我训练了一个XGBoost回归模型，它试图预测运动提供的转换数。自变量是每月虚拟，位置虚拟，和4列竞选规则(数字)。总共有6列ind。变量。我训练了模特。现在我试着用这个模型来预测一个特定的竞选活动的表现。我的目标是输入新活动的规则、月份和地点，并得到XGBoost预测的转换量。您知道如何在Python中实现这种预测吗？谢谢

浏览 0提问于2022-02-10得票数 0

回答已采纳

1回答

为什么ML模型中有不同的random_states？

、、

我最近读到，为random_state指定一个数字可以确保每次运行都得到相同的结果。为什么在将数据分成训练集和验证集时使用random_state=1，而使用random_state=0来创建模型？我原以为他们俩的价值是一样的。 import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.ensemble import RandomForestClassifier data = pd.read_csv('../input/fifa-

浏览 7提问于2022-07-17得票数 0

3回答

生产正常化

、、、

我目前正在为我的时间序列应用程序编写一个机器学习管道。在每个月的月底，我收集到数据，规范它(0，1)，仅用新的观察重新训练ML模型，并预测未来的值。问题每次我得到一个新的观察时，是否应该读取整个数据集，对整个数据集进行规范化，创建ML模型，然后进行预测？我是怎么被困住的假设我有一个特性，在t-1，所有的值都有min/max = 0,000 在t，一个新的观测值为1001 考虑到ML模型已被训练成不同的min/max，我应该如何规范新的值？谢谢

浏览 0提问于2019-12-13得票数 2

1回答

关于cross_val_predict方法的混淆

、、

考虑一下这段代码： import pandas as pd df = pd.read_csv('module_5_auto.csv') df = df._get_numeric_data() y_data = df['price'] x_data = df.drop('price',axis=1) from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(x_data, y_data,

浏览 3提问于2021-08-07得票数 1

1回答

如何得到最近的5点平均与最近的邻居？

、

在经度、纬度和房价(房屋)的数据集中，我使用sklearn的KNearestRegressor来获得每个点的5个最近的邻居的平均价格。问题是，我想对整个数据集这样做，每个点都考虑到自己的价格，因为KNearestRegressor是一个有监督的算法，我正在预测训练集。我如何才能得到每个点的5个最近邻的平均价格，而不考虑这一点的价格呢？我尝试过sklearn的无监督NearestNeighbours，但它只输出最近邻居的索引，而不是平均价格。

浏览 0提问于2018-05-12得票数 0

2回答

理解为什么合唱只会略有改善

、

我有两个模特，A和B，在Imagenet上受过训练。它们在Imagenet验证集上的准确率分别为35.6%和28.64%，而其集成(平均分数)的准确率为35.68%。我很想找出为什么这个组合在这里是无效的。具体来说，我打算检查每个模型的混淆矩阵，但是Imagenet有1000多个类，这使得这个问题难以解决。另一件事是向我建议的是相互信息，但我不知道如何应用它在这种情况下。所以，我有两个问题：为什么集成的准确性不降低(到两个精度的平均值)或提高？是否有一种方法可以对这两个网络的输出进行可视化/评分，以衡量相关性？编辑1:这两个模型都是AlexNet模型，但都是通过两个不同的预先训练的权

浏览 0提问于2019-02-07得票数 1

1回答

在python中保存Keras/Sklearn并在tensorflow.js中加载保存的模型

、、、

我有一个训练有素的.pkl格式的学习支持向量机模型和一个Keras .h5模型。我可以在浏览器上使用tensorflow.js加载这些模型吗？我大部分代码都是用python编写的，而且不确定如何使用tensorflow.js --我的模型保存代码如下所示 from sklearn.externals import joblib joblib.dump(svc,'model.pkl') model = joblib.load('model.pkl') prediction = model.predict(X_test) #--------------

浏览 2提问于2020-01-23得票数 2

回答已采纳

1回答

多项logistic回归在二维输入回归中的应用

、、、

我正在尝试实现一个用于多类预测的堆叠集成模型。每个训练例子都是一个向量，有14个特征。总共有12个可能的课程。三个基本模型(下面描述)每个都包含一个14维的特征向量训练示例，并输出一个12维概率向量(1概率/类)。这三个基本分类模型是从头构建的(即不使用sklearn构建，因此我不能简单地使用sklearn集成方法)，如下所示： Bayes网:为每个14维训练示例输出一个12维概率向量(1概率/类)其他图形模型:为每个14维训练示例输出概率的12维向量(1概率/类)度量学习模型:为每个14维训练示例输出一个12维概率向量(1概率/类)。我想将每个训练示例的基本模型的输出叠加起来(即，每个

浏览 1提问于2020-05-22得票数 0

1回答

如何在sklearn model.predict中用单样本进行预测？

、

我用一些数据训练了一个逻辑回归模型。我应用标准标量来训练和测试数据，训练模型。但是，如果我想用训练和测试数据之外的数据对模型进行预测，我必须对新数据应用标准标量，但如果我有单个数据，那么我不能对我想要作为输入的新的单个样本应用标准标量。用新数据，特别是一次一个样本来预测结果的程序应该是什么？

浏览 17提问于2019-06-23得票数 2

2回答

数据挖掘中的“列车模型”步骤的目的是什么？

、、、

我的理解是，训练一个模型是在机器学习中使用训练数据，以便当新的数据提供给它时，该模型可以预测值。数据挖掘是在现有数据集中查找模式的过程。那么，“列车模型”在数据挖掘中的作用到底是什么呢？

浏览 0提问于2020-09-09得票数 2

1回答

使xgboost每次都以相同的方式训练

、、

我正在尝试决定使用哪些变量来训练我的xgboost型分类器。我修复了超参数: n_estimators、max_depth、learning_rate、min_child_weight、reg_alpha。XGBClassifier中的random_state，并且每次sklearn.model_selection.train_test_split也被设置为固定的整型。然而，我的模型每次训练都会有很大的不同。中华民国的面积可以在0.87到0.91之间。这使得比较是否删除一个变量实际上使模型变得更好/更差，或者面积的差异只是由于模型训练的不同而变得有点困难。有没有办法让xgboost每次训

浏览 84提问于2021-07-16得票数 0

1回答

Python -如何在未知数据上使用拟合的ARIMA模型

、、

我正在使用statsmodels.tsa.arima.model.ARIMA在时间序列上拟合ARIMA模型。如何使用此模型对看不见的数据进行预测？似乎预测和预测功能只能从模型拟合到的训练集中的最后一次看到的数据进行预测。举个例子，我想用一个静态模型来预测未来。这是为了实时多步预测的目的，其中重新拟合模型是不可行的。例如，假设我们有一个10,000的数据集，分为训练和测试(70/30)。我们训练的最后一个读数是7,000，可以使用经过训练的模型并在6997到7000中传递来预测7001到7004，然后在接下来的迭代中使用相同的模型传递6998到7001来预测7002到7005。这种类

浏览 33提问于2021-10-28得票数 0