如何使用scikit learn确保测试和训练集具有相同的功能？

、、

我正在尝试预测重新出现的票证的未见数据？我有很多分类变量。这些变量可以是相同的或重复的。如何确保这些功能是相同的？功能可能会根据传入的容量而有所不同？logReg.predict(test) 这两列是具有类别值<em

浏览 11提问于2020-02-13得票数 0

回答已采纳

1回答

是否可以将特征学习用于二进制文本分类？

、、

我目前正在与CHILDES语料库合作，试图创建一个分类器，以区分患有特定语言障碍(SLI)和典型发育障碍(TD)的儿童。在我的阅读中，我注意到确实没有一组令人信服的特征来区分这两个已经被发现的特征，所以我突然产生了一个疯狂的想法，试图创建一个可能会更好的特征学习算法。这个是可能的吗？如果是这样的话，你建议我怎么做呢？从我所做的阅读来看，大多数特征学习都是在图像处理上完成的。另一个问题是，我拥有的数据集</e

浏览 0提问于2016-08-31得票数 1

1回答

用于keras model.fit_generator的分割图像数据集

、、

我有一个目录，dataset，它包含图像的子文件夹(标签/类). 我想将数据集分成model.fit_generotar()的训练集和测试集。

浏览 2提问于2018-02-11得票数 0

1回答

基于LIBSVM在scikit.smv.SVC中启用概率估计

、、

在LIBSVM中，svmtrain中的-b标志用于训练svmtrain或SVR模型以进行概率估计。为了获得测试集的相应结果，我们还在svmpredict中设置了-b结果model = svmtrain(train_labelslearn库中的SVC时，我们只能在训练时设置-b标志，这与在svmtr

浏览 10提问于2018-01-10得票数 1

1回答

在训练数据上使用MinMaxScaler生成用于测试数据的std、min和max

、、

我将如何使用scikit学习MinMaxScaler来标准化熊猫数据框架训练数据集中的每一列，但在我的测试数据集上使用完全相同的标准差，最小/最大公式？由于我的测试数据是未知的模型，我不想标准化整个数据集，它将不会是一个准确的模型，对未来的未知数据。相反，我希望使用

浏览 2提问于2018-01-29得票数 1

回答已采纳

2回答

scikit了解SelectPercentile TFIDF数据特征缩减

、、、

我使用scikit-learn中的各种机制来创建由文本特征组成的训练数据集和测试集的tf-idf表示。这两个数据集都经过预处理，以使用相同的词汇表，因此特征和特征的数量是相同的。我可以在训练数据上创建一个模型，并在测试数据

浏览 0提问于2015-04-01得票数 2

1回答

如何在scikit-learn中加载包含txt文件的数据集

、、

我将使用scikit-learn库来实现我的SVM分类。我的特征的值是0/1，我已经将这些值保存在特征的txt文件和我的标签的单独的txt文件中。现在我的问题是，如何使用scikit-learn加载用于训练和测试阶段的外部数据集

浏览 21提问于2017-01-30得票数 0

回答已采纳

1回答

如何使用scikit交叉验证模块将数据(原始文本)拆分为测试/训练集？

、、、、

我有大量原始文本的观点语料库(2500)。我想使用scikit-learn库将它们分成测试/训练集。用scikit-learn解决这个问题最好的方法是什么？谁能给我提供一个在测试/训练集中拆分原始文本的例子(我可能会使用tf-idf表示)。

浏览 0提问于2014-09-12得票数 9

回答已采纳

3回答

ImportError:无法导入名称“”cross_validate“”

、

我想要做的是：正如前面提到的。但得到的错误是：Sklearn中的其他一切似乎都运行得很好，就是这一点。

浏览 8提问于2017-08-13得票数 20

回答已采纳

2回答

我在每个类中都有超过三个元素，但是我得到了这个错误：“class不能小于scikit- k=3”

、、、

这是我的目标(y)： 1,3,1,4,4,6,6, 3,3,6,2,7,7,1,10,3,7,10,4,10,我不知道为什么在我执行的时候：# Split the data set in two equal parts X_train, X_test

浏览 0提问于2013-02-18得票数 16

回答已采纳

1回答

交叉验证训练集，其中类变量具有与实际总体不同的分布

、、

( ML中的新手，耐心点)我想测试一下我的scikit learn SVMLinear分类器的性能。我的训练集具有与实际人口不同的类分布，但我的测试集是代表性的，并且像实际人口一样分布。我注意到有一个类权重参数，我想尝试给我的分类器提供实际的人口分布，看看它是否有助于它更好地执行。然而，由于我的</e

浏览 0提问于2015-01-09得票数 2

1回答

使用具有缩放特征的预先训练的模型进行单次预测

、、、

我训练了一个具有缩放特征的SVM scikit-learn模型，并将其持久化以供以后使用。在另一个文件中，我加载了保存的模型，并希望提交一组新的特征来执行预测。我必须缩放这组新功能吗？只有一组功能，我该如何做到这一点呢？我没有调整新的值，我得到了奇怪的结果，我不能做预测。尽管如此，StratifiedShuffleSplit生成的大型测

浏览 20提问于2019-07-01得票数 1

1回答

Scikit learn Stratified Shuffle Split在其中一个类只有一个实例时不起作用

、、、

我试图使用scikit learn的分层随机拆分将我的数据集拆分成训练集和测试集，但它不起作用，因为其中一个类只有一个实例。如果将一个实例放入训练集或测试集，就可以了。

浏览 2提问于2021-08-03得票数 0

2回答

使用sci-kit中的训练/测试数据学习曲线，而不是交叉验证

、、、

我有一个独立的训练和测试数据(从不同的CSV加载到不同的pandas数据框中)，我想用这些训练和测试数据绘制学习曲线，而不是使用交叉验证从训练集本身生成训练和测试数据(这似乎是learning_curve的常见工作方式)。似乎scikit希望你的测试

浏览 3提问于2015-09-20得票数 2

3回答

在Google Cloud Platform中管理scikit-learn模型

、、

我们正在试图弄清楚如何在GCP中托管和运行许多现有的scikit-learn和R模型(按原样)。似乎ML引擎是Tensorflow的专用引擎。如果数据集太大而无法放入datalab，我如何在Google云平台上训练scikit-learn模型并管理我的模型？我仍然可以使用ML Engine吗?或者大多数人是否采取了不同的方法？作为更新，我能够通过

浏览 1提问于2017-04-21得票数 2

2回答

选择scikit中的功能子集-学习以进行培训

、

假设我有一个具有5个特征的数据集，并且我想使用特征1、2和5进行训练(跳过特征3和4)。我不想更改数据集，因为我希望在预测期间将相同的5个特征提供给模型。我只想让预处理管道的第一步去掉功能3和4。此外，我希望能够在训练结束时对管道对象执行pickle/joblib操作，而无需依赖于要加载和运行的任何其

浏览 1提问于2019-06-07得票数 1

1回答

如何在scikit-learn的高斯过程回归中重新调整归一化标准差？

、、、、

我正在使用scikit-learn进行高斯过程回归建模。我的数据没有标准化。模型总是返回0到1之间的标准差值，这与我的数据不一致。有没有人知道如何重新调整标准差值以获得实际标准差？

浏览 9提问于2021-01-30得票数 0

1回答

文本分类监督学习中的同义词寻址

、、、

我正在使用scikit-learn监督学习方法进行文本分类。我有一个训练数据集，其中包含输入文本字段及其所属的类别。我使用tf-idf，SVM分类器管道来创建模型。该解决方案适用于正常的测试用例。但是，如果输入的新文本具有与训练集中相同的同步词，则解决方案无法正确分类。例如:单词'run‘可能存在于训练数据中，但如果我

浏览 0提问于2016-10-07得票数 3

2回答

如何用不同的数据集来训练和测试GridSearchCV？

、、、、

我希望找到一个RandomForest分类器的最佳参数(使用scikit-learn)，方法是它可以很好地推广到其他数据集(可能不是iid)。我在考虑使用整个训练数据集进行网格搜索，同时评估其他数据集上的评分功能。在python/scikit--学习中，是否容易做到这一点？

浏览 3提问于2016-11-22得票数 0

回答已采纳

1回答

在不可见的数据点上使用category_encoders.TargetEncoder()

encoder = TargetEncoder()X.head() 然后我将执行训练-测试-拆分，所有的X变量(X_train / X_test)都将被正确编码，我可以测试我的模型的性能，这很棒！然而，我不明白我如何进一步在一个“看不见”的样本上使用它。假设我测试了我的模型，我认为它是有效

浏览 32提问于2020-09-18得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

是否可以将特征学习用于二进制文本分类？

用于keras model.fit_generator的分割图像数据集

基于LIBSVM在scikit.smv.SVC中启用概率估计

在训练数据上使用MinMaxScaler生成用于测试数据的std、min和max

scikit了解SelectPercentile TFIDF数据特征缩减

如何在scikit-learn中加载包含txt文件的数据集

如何使用scikit交叉验证模块将数据(原始文本)拆分为测试/训练集？

ImportError:无法导入名称“”cross_validate“”

我在每个类中都有超过三个元素，但是我得到了这个错误：“class不能小于scikit- k=3”

交叉验证训练集，其中类变量具有与实际总体不同的分布

使用具有缩放特征的预先训练的模型进行单次预测

Scikit learn Stratified Shuffle Split在其中一个类只有一个实例时不起作用

使用sci-kit中的训练/测试数据学习曲线，而不是交叉验证

在Google Cloud Platform中管理scikit-learn模型

选择scikit中的功能子集-学习以进行培训

如何在scikit-learn的高斯过程回归中重新调整归一化标准差？

文本分类监督学习中的同义词寻址

如何用不同的数据集来训练和测试GridSearchCV？

在不可见的数据点上使用category_encoders.TargetEncoder()

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐