对大量分类特征进行编码的最佳方式是什么？

、、、、

我正在尝试制作一个小型的数据科学工具(有点像WEKA的迷你版)。现在，我有了这些具有大量特征(70-100+)的数据集，它们大多是分类的。我正在使用Python sklearn进行机器学习逻辑，我需要根据我得到的sklearn错误将这些类别转换为数字值。考虑到这一点，一次热编码不是一个选择，因为它会放大太多的维度。我已经研究了其他可能的方法，比如频率编码，标签<

浏览 24提问于2021-04-21得票数 0

1回答

在聚类数据时，对特性进行编码的最佳方法是什么？

、、、、

我有一个具有数字和分类特征的数据集。我正在尝试运行一个k均值算法来查找数据簇。我一直在做一个热编码，但我想它可以很容易地改进。

浏览 0提问于2019-12-19得票数 0

1回答

在机器学习中对大数据集中的分类数据(URL)进行编码的最佳方法？

、、、、

我有一个很大的数据集，其中一个特征是分类(名义)命名的URL，它包含不同的URL。一百万行中有500多个不同的URL。对此分类特征进行编码的最佳方式是什么，以便将编码后的特征传递给Logistic回归模型？我尝试过使用sklearn中的标签编码，但它不能很

浏览 11提问于2019-07-06得票数 0

1回答

为无监督学习编码分类数据

、、

在无监督学习中，分类数据的最佳编码器是什么？我在混合数据(如K-均值)上使用无监督的学习。在运行无监督算法之前，我使用FAMD (用于混合数据的PCA)对数据进行降维，这使我能够获得坐标并减少数据集的维数。FAMD需要一个热编码(又名Dummies变量)，它基于SVD.如果维数很高，SVD可能会非常耗时，当我有大量模式的范畴变量时，这就是我的情况。因此，我正在寻

浏览 0提问于2022-12-02得票数 1

1回答

在CatBoost基准测试中，使用了什么样的预处理来编码分类变量？

、

由于XGBoost只能接受数字特征，所以CatBoost和XGBoost之间的比较需要对分类特征进行共同的预处理。我并不完全清楚在基准测试中使用了什么样的预处理来编码分类特性，以及不使用简单的一种热编码的理由。在

浏览 3提问于2019-01-13得票数 1

1回答

sklearn将多个分类列标签编码器序列化到磁盘

、、、、

我有一个带有几个分类特征的模型，需要转换为数字格式。我正在使用和的组合来实现这一点。一旦投入生产，我需要对新传入的数据应用相同的编码，然后才能使用模型。我已经使用将模型和编码器保存在磁盘上。这里的问题是，LabelEncoder只保留最后一组类(对于它编码的最后一个特征)，因此它不能用于编码新数据的所有分类特征

浏览 1提问于2020-05-17得票数 2

1回答

如何按分类顺序处理多源能源的时间序列？

、、

我想对多源能源(风能/太阳能/teg)进行分类，并在时间序列数据中加以说明。我的问题是: 1-最相关的特征是什么，我应该选择做分类(统计的(kurtoisis/意思/方差.)对于每个滑动窗口(用于实验)或光谱窗口(DWT/FFT)，在这种情况下，特征选择/提取方法是最好的。2-我应该选择的最佳分类

浏览 0提问于2017-04-11得票数 1

回答已采纳

3回答

从scikit-learn中的one-hot-encoding回溯分类特征？

、、、、

我使用scikit learn中的OneHotEncoder，使用one-hot of-K方案对我所有的分类整数特征进行了编码。根据结果，实际影响预测模型的参数只有51个。我想研究这些参数，但它们的编码方式如上所述。你知道如何提取哪个分类整数特征对应哪个热编码数组吗？谢谢!

浏览 0提问于2015-11-28得票数 0

2回答

使用scikit-learn对大数据集进行一次性编码

、

我有一个很大的数据集，我计划对其进行逻辑回归。它有很多分类变量，每个变量都有数千个特征，我计划对这些特征使用一个热编码。我将需要以小批的方式处理数据。我的问题是，如何确保在第一次运行期间，一个热编码可以看到每个分类变量的所有功能？

浏览 0提问于2014-07-26得票数 2

1回答

one-hot编码会导致功能不均衡的问题吗？

、、、、

我们知道，在数据挖掘中，我们经常需要对分类特征进行一次性编码，因此，一个分类特征将被编码为几个"0/1“特征。有一个特例让我感到困惑:现在我的数据集中有一个分类特征和一个数字特征，我将分类特征编码为300个新的"0/1“特征，然后使用MinMaxScal

浏览 2提问于2018-12-03得票数 0

1回答

如何处理具有不同基数的多个范畴变量？

、、

我正在处理我在kaggle上找到的一个自动数据集。除了马力、车长、汽车重量等数值外，它还有多个分类变量，如：我想使用随机森林分类器来执行特征选择，并将所有这些变量作为输入。我知道，在这样做之前，必须对分类变量进行编码。处理这些变化基数的数据的<em

浏览 3提问于2022-02-03得票数 1

2回答

为什么连续特征在决策树模型中比分类特征更重要？

、、、、

我的预测模型中既有分类特征，也有连续特征，我希望选择(和排序)最重要的特征。我使用一个热编码将所有的分类变量转换为虚拟变量(为了更好地解释我的logistic回归模型)。一方面，我使用LogisticRegression (sklearn)，并通过使用它们的系数对最重要的特征进行排序。通过这种方式，我将分类变

浏览 0提问于2020-01-15得票数 9

回答已采纳

1回答

数据集的编码和缩放特性

、、

我有一个带有非序数分类特征的数据集。在训练机器学习模型(线性SVC)之前，转换它们(编码+缩放)的最佳方法是什么？标签编码-这是有效的。但是缩放没有意义，因为特性中的不同类别没有任何特定的顺序。 One--热编码--特性中有上千种独特的类别，这使得ML模型通过创建数千列而变得复杂。计数编码--我的</e

浏览 0提问于2020-11-26得票数 0

1回答

在未见数据上实现sklearn的FeatureHasher

、、、

一直是对所有这些信息进行编码的有用工具。我计划使用经过训练的模型对新的/未见的索赔数据进行预测，这些数据将在每天的基础上进行评分。我将对每日提取的索赔数据进行散列，这些数据具有相同的哈希维度，因此，在对模型进行培训的特征数量与每日提取的特征数量之间

浏览 0提问于2020-04-27得票数 0

1回答

如何处理包含名义数据的目标变量？

、、、、

我正在做一个NLP项目，它的目标变量包含七个独特的句子，它们是“鼓舞人心的和发人深省的"，”信息性的“，”感谢和欣赏“和其他4个。至于我的理解，目标变量，因为我们不能建立他们之间的定量比较。所以我的问题是，对这些变量进行编码的最佳方式是什么？如果我使用一个热编码对其进行</e

浏览 11提问于2020-12-18得票数 1

回答已采纳

1回答

如何处理最新的星火随机森林的分类特征？

、、、、

在随机森林的Mllib版本中，有可能用参数categoricalFeaturesInfo指定具有名义特征(数值但仍然是绝对变量)的列，那么ML随机森林是什么呢？在用户指南中，它使用VectorIndexer来转换向量中的分类特征，但是它被写成“自动识别分类特征，并对它们进行索引” I发现，在随机森林中，数字索引无论如何都被视为连续的特性，因此建议进行一次热<em

浏览 1提问于2017-10-15得票数 6

回答已采纳

2回答

在机器学习中，如何在数字和分类特征上使用统一的管道？

、、

想要运行编码器上的分类特征，输入(见下文)上的数字特征，并将它们统一在一起。例如，具有分类特征的数字： 'A' : ['ios', 'android', 'web', 'NaN'],13 NaN

浏览 0提问于2019-02-12得票数 2

回答已采纳

1回答

在决策树中处理标称类别特征

、、、、

我一直在阅读一些关于如何处理决策树(sklearn实现)的标准特性的堆栈溢出问题。其中一个答复指出：那么，OneHotEncoding的优势是什么呢？

浏览 0提问于2021-05-24得票数 1

回答已采纳

1回答

属性的特征缩放

、、、

我使用两个要素来训练分类模型，例如要素A和B。要素A比要素B更重要。要素A具有序数数据，因此我对其进行了标注编码，其值范围为1到5。要素B也是分类要素，并且在标注编码后对其进行了热编码由于上述编码，特征A具有从1到5的值，而特征B具有多列，并且每个列值要么为0，要么为1。现在，在我的模型训练之后，我的模型过于偏向于特征

浏览 26提问于2020-01-03得票数 1

1回答

理解计算机视觉conv网中滤波器的概念

、、、

我正在尝试理解计算机视觉的卷积网络中的过滤器的概念。我知道它们是做什么的，例如，它们可以用来降低输入图像的维度，等等。我的问题是这些过滤器是从哪里来的？:])) 其中64是我想要应用于输入的过滤器的数量...但是，Keras或任何其他库如何确定过滤器矩阵将包含哪些数字？现在，如果我想要检测整个图像的边缘，我指的是物体的轮廓，以检测图像是笔记本电脑还是手机，这在卷积网络中是如何发生的

浏览 5提问于2019-04-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在聚类数据时，对特性进行编码的最佳方法是什么？

在机器学习中对大数据集中的分类数据(URL)进行编码的最佳方法？

为无监督学习编码分类数据

在CatBoost基准测试中，使用了什么样的预处理来编码分类变量？

sklearn将多个分类列标签编码器序列化到磁盘

如何按分类顺序处理多源能源的时间序列？

从scikit-learn中的one-hot-encoding回溯分类特征？

使用scikit-learn对大数据集进行一次性编码

one-hot编码会导致功能不均衡的问题吗？

如何处理具有不同基数的多个范畴变量？

为什么连续特征在决策树模型中比分类特征更重要？

数据集的编码和缩放特性

在未见数据上实现sklearn的FeatureHasher

如何处理包含名义数据的目标变量？

如何处理最新的星火随机森林的分类特征？

在机器学习中，如何在数字和分类特征上使用统一的管道？

在决策树中处理标称类别特征

属性的特征缩放

理解计算机视觉conv网中滤波器的概念

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐