为什么我得到额外的零，而OneHotEncoding分类数据？_为什么我得到的是wrappedPointCut而不是数据？_为什么我在Matlab - SQL查询和数据库连接中得到的是Cell数组而不是Table？ - 腾讯云开发者社区

python、scikit-learn、one-hot-encoding

直接来自Udemy上的机器学习课程，关于编码分类数据的讲座提供了一个CSV文件来进行编码。该文件的内容相当简单： ? 通过创建特征矩阵，我可以相当容易地获得数据。但是在使用sklearn (通用转换器)中的OneHotEncoder时，"country“列被分成3个不同的列，其值如下所示： ? 然而，讲师对相同的数据和相同的代码只有一位小数。我似

浏览 17提问于2021-04-23得票数 0

回答已采纳

1回答

如何保留Scikit-学习从模型生成到使用新数据的OneHotEncoding？

python、scikit-learn、one-hot-encoding

我使用OneHotEncoding来生成一个分类问题的假人。当使用训练数据时，我得到了300多个虚拟列，这是很好的。但是，当我输入新数据(行数较少)时，OneHotEncoding只生成大约250个虚拟数据，考虑到较小的数据集，这并不奇怪，但由于功能不对齐，所以不能将新数据与模型一起使用。是否有一种方法可以保留用于新传入数据<e

浏览 4提问于2020-05-05得票数 0

回答已采纳

1回答

TypeError：'OneHotEncoder‘对象不可迭代

scikit-learn、one-hot-encoding

我试图在以下数据集的分类变量上使用OneHotEncoding。首先，我正在尝试转换“地理”专栏。以下是我迄今所做的工作：from sklearn.compose import ColumnTransformerOneHotEncoder(categories='auto'),[1]],remainder='passt

浏览 2提问于2021-11-17得票数 1

回答已采纳

2回答

在对分类输入进行一次热编码时，如何处理神经网络的不同输入大小？

neural-network、categorical-data

让我们假设一个输入数据集，它是分类值和实值的混合。当将这些数据预处理为适当的NN输入时，OHE是推荐，因为它不考虑类别的任何顺序。“男人”、“女人”、“多样化”没有它的顺序，所以在一个维度中有一个表示它们的输入是没有意义的。当使用交叉验证时，数据集通常被分割成一个小得多的子集。这些子集可能不包含所有类别。这可能导致网络数据输入的不可预测的列计数。它也会导致不同类

浏览 0提问于2019-01-02得票数 0

1回答

如何将未知数据转换为能够在模型上进行预测？

python、one-hot-encoding

我正在开发一个贷款状态检测器，并且一直在使用OneHotEncoding对一些分类列进行编码。我从X是11变成了X是17。我现在正在未知数据上测试我的模型，使用11个变量的新数据帧，使用编码器对其进行拟合转换，我假设结果是17列而不是11列。但是我得到一个错误，说模型需要17个变量。

浏览 27提问于2020-07-15得票数 0

5回答

与oneHotEncoding的问题

python、scikit-learn、preprocessing

因此，我在一个列中有一个带有分类变量的PandasDataFrame，我想对它进行一个热编码，我使用了来自ML课程的以下代码Y= onehotencoder.fit_transform(X).toarray() 但是，我得到以下错误ValueErro

浏览 0提问于2017-10-18得票数 8

3回答

MinMaxScaler :我也应该规范化类标签吗？

python、machine-learning、scikit-learn、deep-learning

我使用的是MLPRegressor，它采用5个连续的特征和1个特征，它从一组40个值的[0,1,2,.., 39]中提取值。有人告诉我，使用sklearn.preprocessing.MinMaxScaler(feature_range = (0,1))对这些特性进行标准化可以帮助提高性能，无论是使用MLP还是LSTM。因此，我在包含上述特性的Xtrain矩阵上使用它。然而，对于我来说，我应该最小化一个分类变量，这看起来很奇怪。<e

浏览 1提问于2017-10-16得票数 1

2回答

预测哪种药物对哪个病人最合适，准确率几乎为0。

classification、scikit-learn

我有一个像这样的数据文件： 'sex': [0, 1, 1, 0], 'disease_type': ['真正的df有> 10000行(=病人)和34种不同的药物，但似乎我不能在这里上传一个csv作为一个更有用的例子？根据患者的年龄、性别、疾病类型和疼痛减轻程度，我

浏览 0提问于2020-10-15得票数 2

2回答

在预测过程中如何处理测试数据一次编码后的类别不匹配？

python、machine-learning、scikit-learn、data-science

很抱歉，如果问题的题目不那么清楚，我不能用一句话来概括这个问题。以下是用于解释的简化数据集。基本上，培训集中的类别数比测试集中的类别数大得多，因此测试集中的列数与OneHotEncoding后的培训集中的列数有差异。我该如何处理这个问题？之后的培训集是形状(3,4)，而OneHotEncoding后的测试集是形状(3,3)。(

浏览 4提问于2017-12-13得票数 5

回答已采纳

2回答

Logistic回归输出中概率的两个不同值

r、classification、probability、logistic-regression、glm

我在R中运行一个logistic回归，并使用以下方法提取大约15,000行测试数据的预测概率我本来希望得到0到1之间的各种概率值，但却只有两个不同的概率值。所有概率要么是1，要么是2.220446e-16 (实际上等于零)。实际上，我得到的是二进制分类，而</em

浏览 0提问于2018-04-14得票数 0

回答已采纳

7回答

有约束的多对一建模？

sql-server、database-design、sql-server-2008、normalization、referential-integrity

我正在尝试为电影分类创建一个数据库模型，其中每部电影都可以从多个分级系统(例如BBFC、MPAA)中的每一个得到一个单独的分类。，而理想情况下，它应该只允许来自给定系统的零分类或一个分类。是否有任何合理的方法来重构这一点，以便在满足以下要求的情况下，使来自任何给定系统的完全为零或一个分类<em

浏览 4提问于2010-05-10得票数 3

2回答

使用分类预测器在SAS中执行hpgenselect

sas、lasso-regression

我正在使用这里使用logistic 分析的神经痛数据集运行具有二进制端点的套索回归。我运行以下代码 class Treatment Sex;output out=predLASSO pred=Lpred pzero=Lzero;然而，与proc logistic相反，对于二进制性别等<e

浏览 7提问于2020-12-01得票数 1

1回答

为什么SciKit-学习的OneHotEncoder在大型数据集上花费这么长时间？

scikit-learn、one-hot-encoding、efficiency

我正在使用一个较早版本的SciKit，1.0.2版本，尝试并OneHotEncode一些数据。我的数据集相当大，184个列将在OneHotEncoding之后转到311列，有大约50万行。尽管如此，我相信我可以立即编写最大限度的OneHotEncodes列代码。目前，SciKit-学习的OneHotEncoder是10分钟和计数。为什么这段代码这么慢？我能做些什么来加速这一切吗？

浏览 0提问于2022-11-29得票数 1

回答已采纳

2回答

对于我的CNN模型，我应该如何解释或直观地解释以下结果？

python、tensorflow、machine-learning、keras

我正在训练一个CNN模型，它需要对4个物体进行分类。3个杯子(白色，黑色，蓝色)和1个玻璃杯。当我训练我的模型只有10个时代，我得到了25%的验证准确性，其中所有的东西都被标记为白色杯子。换句话说，如果我能够找到为什么我的分类器错误地分类白色杯子，那么我可能达到90%的validation_accuracy。因此，我</

浏览 4提问于2020-05-28得票数 1

2回答

微调预培训的word2vec Google新闻

python、gensim、word2vec、google-news、fasttext

我目前使用的Word2Vec模式是在谷歌新闻语料库上培训的(来自)，因为这是直到2013年才对新闻进行培训的，因此我需要更新矢量，并根据2013年以后的新闻在词汇表中添加新单词。假设我在2013年后有了一个新的新闻语料库。我可以重新培训或微调或更新谷歌新闻Word2Vec模式吗？能用Gensim做吗？可以用FastText来完成吗？

浏览 4提问于2017-09-15得票数 3

1回答

为什么我要在cv循环中进行目标编码？

cross-validation、overfitting、categorical-encoding、target-encoding

我希望使用目标编码，使用类别编码器学习库。我真的不明白为什么有必要在交叉验证循环中将其作为sklearn管道中的一个步骤吗？然而，看看我下面的结果，这不说明是否过份合适吗？ 📷

浏览 0提问于2020-12-07得票数 0

1回答

如何使用一热编码

python、scikit-learn、jupyter、jupyter-notebook

我一直在用谷歌来尝试和理解，但我就是无法理解。我的问题如下。现在，我们也要使用分类功能！因此，我们必须对分类特性执行OneHotEncoding。为此，应将每个分类特性替换为功能表中的虚拟列(每个类别特性的可能值为一列)，然后以二进制方式对其进行编码，以便最多只有一个虚拟列一次可以接受“1”(其余列为零)。但是现在我不得不用这个热编码来处理灾难性的东西，但是我完

浏览 5提问于2016-10-16得票数 0

回答已采纳

2回答

Python/ML:用于产品分类的多类分类使用哪些方法？

python、machine-learning、neural-network、classification、multiclass-classification

我有一个有>100000个观测值的数据集；数据集的列包括CustomerID、VendorID、ProductID和CatNMap。如下所示：如您所见，在前3列(CustomerID、VendorID、ProductID)中表示的值表示唯一的数值映射值，如果在x，y平面上表示(这消除了许多分类方法的使用)，则没有意义；最后一列包含由客户分配的类别字符串现在，这是我不明白的<

浏览 8提问于2020-02-11得票数 5

1回答

如何测试WEKA的分类数据集？

weka

我有一个大数据集，其中包含作为文本的最后一个属性类标签。我把“？”这个班而不是最后一个属性中的类，我想预测它。为什么混淆矩阵输出零和实例总数等于零？我选择‘更多的选项’，

浏览 1提问于2014-11-01得票数 0

2回答

Linux套接字传输正在添加额外的零填充。

linux、sockets、tcp、padding

当我试图通过TCP将数据从Linux客户端发送到Server时，我看到数据中添加了额外的零。谁能让我知道为什么我会得到这些额外的零？请参阅下面的数据包格式。

浏览 2提问于2015-08-11得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云