scikit学习的训练-测试分离导致在训练数据中只有一个唯一值的特征

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试训练一个多元线性回归模型。我有一个名为'main‘的数据集。该数据集中类别变量很少。我简化了分类变量。假设虚拟后得到的列是A、B、C、D等。现在，当我试图在这个主数据集上运行训练测试拆分时，这样获得的训练数据集在其中一列中只有0值。我怎样才能克服这个问题。： df_train.column

浏览 7提问于2019-01-24得票数 1

3回答

在整个数据集上还是仅在训练数据上计算TF-IDF？

、、、、

在这本书的第七章"TensorFlow机器学习手册“中，作者在预处理数据时使用了scikit learn的fit_transform函数来获取文本的tfidf特征进行训练。在将其分为训练和测试之前，作者将所有文本数据都提供给该函数。这是真的吗?还是我们必须先分离数据，然后在列车上执行

浏览 1提问于2017-12-13得票数 17

回答已采纳

1回答

何时使用scikit学习的train_test_split

、、、、

我有一个包含19个特征的数据集。现在我需要做缺失值补充，然后使用scikit的OneHOtEncoder对分类变量进行编码，然后运行机器学习算法。我的问题是，我应该在使用split的train_test_split方法做上述所有事情之前拆分这个数据集，还是应该首先拆分成训练和测试，然后对每组数据进行缺失值和编码。我担心的

浏览 0提问于2015-05-05得票数 6

1回答

使用10折交叉验证时sklearn的特征大小

、、、、

如果训练数据集创建的feature-document metrix (这里是词袋)与测试feature-document metrix不同怎么办？例如，单词“happy”是测试数据集中的一个特征，但不在训练数据集中。我不确定我的代码是否正确，因为我在这里使用了：创建训练特征矩阵，并使用 cont_

浏览 2提问于2015-11-11得票数 2

3回答

推理时的单幅图像特征约简

、、、

我试着用scikit学习来训练一个SVM分类器。在训练时，我要减少特征向量维数。我使用PCA来减少维数。pp = PCA(n_components=400).fit(features)主成分分析需要m x n数据集来确定方差。但在推理时，我只有一幅图像和相应的一维特征向量。我想知道如何在推理时减少特征向量以匹配<

浏览 5提问于2020-07-30得票数 1

回答已采纳

2回答

分类器预测结果有偏

、、、

我构建了一个包含13个特性(没有二进制特性)的分类器，并使用scikit工具( Normalizer().transform)对每个样本分别进行标准化。当我预测时，它预测所有的训练集都是阳性的，所有的测试集都是负数(不管是正的还是负的)。注: 1)我分别标准化测试和培训集(每个样本)。2)我尝试过交叉验证，但是性能是

浏览 5提问于2014-02-10得票数 1

回答已采纳

1回答

训练和测试数据集是否应该使用相同的计算机系数？

、、

我正在学习如何准备数据，构建估计器，并使用训练/测试数据拆分进行检查。我的问题是如何正确地准备测试数据集。我将我的数据分成测试和训练集。正如"Hands on with machine learning with Scikit-Learn"教我的那样，我为我的数据准备建立了<e

浏览 19提问于2019-08-21得票数 0

4回答

KNN算法在训练阶段做什么？

、、

与线性回归等其他算法不同，KNN似乎不会在训练阶段执行任何计算。就像在线性回归的情况下，它在训练phase.But中找到系数，那么KNN呢？

浏览 62提问于2019-02-04得票数 9

回答已采纳

1回答

或者为什么简历和测试集之间会出现差异？

、

更确切地说，我有大约两百万的观测数据，有100个变量(n>>p)。我把数据随机分成80/20列车和测试。然后，我在训练集上用5倍交叉验证来拟合一个模型(即XGboost)，估计的错误率很低。迭代地在4组上拟合一个模型，并在rest集上测试性能。我的意思是，如果我的参数设置使模型过于合适，那么我应该

浏览 0提问于2017-03-01得票数 9

7回答

当缩放数据时，为什么训练数据集使用“fit”和“transform”，而测试数据集只使用“transform”？

、

当缩放数据时，为什么训练数据集使用“fit”和“transform”，而测试数据集只使用“transform”？

浏览 152提问于2017-04-28得票数 33

回答已采纳

2回答

基于异构特征空间的SVM学习

、、、

我正在试验一些文档分类任务，到目前为止，支持向量机在TF*以色列国防军特征向量上工作得很好。我想加入一些不基于词频的新特性(例如文档长度)，看看这些新特性是否有助于分类性能。我有以下问题：我能否简单地将新的特征与基于词频的旧特征连接起来，并在这个异构特征空间上训练支持向量机？如果不是，那么多核学习是否就是通过在每个子特征空间上训练一个内核并

浏览 4提问于2013-02-04得票数 4

回答已采纳

1回答

二次特征化:基于fit_transform的预处理

、、

下面的示例是用Python编写的，取自一书。 quad_featuriz

浏览 2提问于2015-04-08得票数 3

回答已采纳

1回答

Python Pandas中的稀疏矩阵与Dataframe

、、、、

我试图在Python 上复制这个项目。split my data to train and test 我确信最后一行是错误的，因为它只包含20.000特性，而不包含来自Pandas的Sentiment列。如何将稀疏矩阵X_new与Dataframe train“连接”，将其包含在cross_validation中，然后将其用于分类器？

浏览 2提问于2015-10-07得票数 0

回答已采纳

1回答

是否可以对特定批次的训练数据设置不同的权重？

、

我得到了一个包含五个不同输入特征和一个输出特征的训练数据集，我想使用回归模型来预测输出特征。然而，我知道训练数据的第一部分“不如”其余部分，即输出特征与真实值并不完全对应，因此预测将进一步远离真实值。因此，我希望对训练集的第一部分给予较少的权重(或等效地给予休息数据更多<em

浏览 3提问于2017-07-10得票数 2

1回答

Kaggle竞争:范畴变量

、、

在分类变量练习中，最后一部分是生成测试预测。我已经编写了以下代码，但得到了一个错误。我无法理解这个错误，为什么它说X有148个特征，随机森林期望155个特征。我的代码： # X_test.dropna(axis=0, inplace

浏览 11提问于2022-07-04得票数 -1

1回答

Vectorizer fit信息存储在哪里或如何存储？

、

在文本挖掘/分类中，当使用向量器将文本转换为数值特征时，在训练中使用TfidfVectorizer(...).fit_transform(text)或TfidfVectorizer(...).fit(text在测试中，它假设利用以前的训练信息，并仅在训练拟合后转换数据。一般情况下，试运行与列车运行是完全分开的。但它需要一些关于在<em

浏览 1提问于2016-03-09得票数 0

1回答

fit方法在sklearn.preprocessing.Normalizer()中的用途是什么？

、

根据sklearn.preprocessing.Normalizer()的fit(self，X)方法的文档，它什么也不做，并且返回的估计量不变。我理解，如果我打算对数据进行规范化，我可以简单地将数据传递给normalize ()函数。那么，什么是使用适合的方法。此外，规范化不是一种学习算法，那么为什么会有一个fit()方法呢？

浏览 0提问于2019-10-10得票数 0

2回答

我正在使用fastai Intro to Machine Learning course，在Lesson 1中，他使用了来自Kaggle的Blue Book for Bulldozers dataset上的随机森林。让我感到奇怪的是，讲师没有使用SKlearn的pd.get_dummies()或OneHotEncoder来处理分类数据。取而代之的是，他对所有分类列调用了pd.Series.cat.codes。我注意到当调用fit()方法时，它在使用pd

浏览 15提问于2019-03-21得票数 4

2回答

如何将数据划分为训练集和测试集？

、、

有没有其他方法可以将数据分成训练集和测试集？ **例如，我有一个包含20个属性和5000个对象的数据。因此，我将12个属性和1000个对象作为我的训练数据，并将12个属性中的3个属性作为测试集。

浏览 1提问于2014-04-17得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云