在构建决策树模型时处理分类特征

文章/答案/技术大牛

发布

1回答

决策树-非常稀疏特征的预处理

decision-trees、preprocessing

如何为决策树的稀疏特性预处理数据？它提到这一点：为什么选择决策树？不同的型号有不同的优点。决策树模型非常擅长处理具有数值特征的表格数据，或少于数百个类别的分类特征。与线性模型不同，决策树能够捕捉特征与目标之间的非线性交互.一个重要的注意事项是，基于树的模型的设计并不是为了处理非常稀疏的特性。当<e

浏览 0提问于2019-03-07得票数 2

1回答

决策树分类器在使用OneHotEncoder转换分类特征之前是否计算熵，或者应该进行转换

machine-learning、python、decision-trees、information-theory

熵与决策树📷import numpy as npimport pandas、湿度和Windy)将变成：作为独立的特征</em

浏览 0提问于2019-10-01得票数 0

0回答

random-forest、categorical-data、h2o、gbm

我使用H2O来构建分类模型，比如GBM、DRF和DL。我拥有的数据集包含一些分类列，如果我想使用它们作为构建模型的功能，是否需要手动将它们转换为虚拟变量？我读到GBM可以在内部哑化分类变量？

浏览 4提问于2017-06-08得票数 3

回答已采纳

2回答

为什么连续特征在决策树模型中比分类特征更重要？

machine-learning、feature-selection、decision-trees、logistic-regression、explainable-ai

我的预测模型中既有分类特征，也有连续特征，我希望选择(和排序)最重要的特征。我使用一个热编码将所有的分类变量转换为虚拟变量(为了更好地解释我的logistic回归模型)。一方面，我使用LogisticRegression (sklearn)，并通过使用它们的系数对最重要的特征进行排序。通过这种方式，我将分类变量和连续变量都视为最重要的特性。另一方面，当我想使用决策树模型(SelectFromMod

浏览 0提问于2020-01-15得票数 9

回答已采纳

1回答

Catboost回归者如何在预测时间处理分类特征？

regression、encoding、gradient-boosting-decision-trees、catboost

我理解Catboost回归器在训练时使用基于目标的编码将分类特征转换为数字特征。但是在标签完全未知的时候，Catboost是如何处理分类特征的呢？如果决策树期望将分类特征值作为数字来看待，那么在预测时间内，一个对象如何沿着Catboost决策树下降？我试着查看正式文档，但只有在培训期间，当标签可用时，才能找到编码。

浏览 0提问于2022-06-29得票数 0

回答已采纳

2回答

决策树:冲刺对SLIQ？

machine-learning、decision-trees

我发现了不同类型的决策树，例如SPRINT和SLIQ方法。这两种方法都用于解决分类问题，使用Gini索引进行特征选择并遵循步骤(根据幻灯片8上的这 )：所以，我的问题是: SPRINT算法和SLIQ算法有什么区别？

浏览 0提问于2022-03-29得票数 1

回答已采纳

1回答

基于树的标签编码器和热编码器分类器

machine-learning、python、scikit-learn、random-forest、decision-trees

我正在使用基于树的分类器在scikit-学习决策树和随机森林中，作为数据分类用例，并且特征集是分类(多数)和数字特征的混合。科学工具包-学习决策树/随机森林只能处理数值，所以我使用了LabelEncoder和OneHotEncoder的框架来将分类特性转换为数值特性。通过比较每一种性能指标(这是相似的)，LabelEncoded数据在处理时间、资源消耗和最终精度统计方面表

浏览 0提问于2021-12-13得票数 0

1回答

Scikit学习:预测分类特征

machine-learning、scikit-learn、classification、categorical-data

我正在尝试找出在scikit-learn中预测分类特征的最好的通用方法，并想要一些建议。特别是，我可以只做一个决策树，它可以很好地处理分类数据，但我想尝试一些其他的多分类模型。我可以使用one-hot方法将分类特征转换为大量的二进制特征。0 | 1 0 75 | 0 0 1 | 1 0 1 0 0 0 0 1 然后我可以用各

浏览 4提问于2014-11-15得票数 0

1回答

在验证模型之后，如何根据给定的输出提取最优输入？

classification、prediction、multi-output

在我训练和测试了一个分类模型之后，我明白了如何为它提供一个新的输入来生成一个预测的输出。但是我如何做反向任务--为它提供一个输出，并提取最佳或最佳的输入参数？(即预测会产生给定输出的输出)？

浏览 0提问于2022-08-13得票数 0

1回答

用套袋分类器进行logistic回归的特征重要性

python、scikit-learn、ensemble-learning

我正在处理一个二进制分类问题，我在包装分类器中使用了logistic回归。10, model.fit(X,y,sample_weights)当决策树被用作套袋分类器的估计器时，我能够得到特征</

浏览 1提问于2019-02-04得票数 2

回答已采纳

1回答

在决策树中处理标称类别特征

python、scikit-learn、decision-trees、categorical-data、one-hot-encoding

我一直在阅读一些关于如何处理决策树(sklearn实现)的标准特性的堆栈溢出问题。

浏览 0提问于2021-05-24得票数 1

回答已采纳

1回答

将先验知识集成到决策树中的机器学习方法

algorithm、machine-learning、decision-tree

你们中有谁知道机器学习的方法或方法的组合，从而能够在决策树的构建过程中集成先验知识吗？有了“先验知识”，我指的是如果某个特定节点中的某个特性确实对最终的分类负责的信息。想象一下，我们只有很短的时间来测量我们的特征，而在这段时间里，我们有一个特征之间的相关性。如果我们现在再次测量相同的特性，我们可能会而不是得到这些特性之间的相关性，因为它们相互关联只是巧合。由此产生的问题是:算法选择进行分割的特征并不是在现实世界中真正导致分裂的特征。

浏览 4提问于2016-08-16得票数 2

1回答

在预处理时保留数据点之间的关系

preprocessing

问题是，我应该如何预处理这些身份证，以保持他们的关系。我只是把它们编码成一个分类属性吗？

浏览 0提问于2022-10-05得票数 0

2回答

决策树与特征选择

feature-selection、decision-trees

在应用特征选择之前和之后，我尝试对不同机器学习算法的性能进行实验。利用sklearn提供的函数(SelectFromModel)，对SVM、随机森林、KNN、线性回归以及决策树作为特征选择方法进行了测试。除决策树算法外，所有算法在应用特征选择后都有了明显的改进。这是否意味着决策树需要大量的特性才能生成一个好的模型？

浏览 0提问于2020-04-19得票数 3

1回答

基于sklearn的决策树分类器的100%准确率

python、machine-learning、scikit-learn、decision-tree

我正在使用sklearn的决策树分类器，但是我得到了100%的分数，我不知道出了什么问题。我已经测试了svm和knn，两者的准确率都在60%到80%之间，看起来也不错。using Decision tree classifier is {0:.8f}%".format(100* 这是输出:决策树分类器决策树分类器(max_depth=5)的交叉值得分为0.9996212121212121。决策

浏览 2提问于2020-07-02得票数 0

回答已采纳

2回答

基于决策树的图像分类

python、decision-tree

好的，我正在学习如何使用决策树，并且想要处理图像。所以我已经阅读了它们是如何工作的，我需要一些帮助才能继续前进，因为我找不到太多的材料(我知道我没有朝正确的方向看)。我读过许多决策树的例子，但它们都有与图像无关的例子(有年龄、性别等特征)。我任何人都可以提供有用的资源来阅读如何使用DTs进行图像分类，或者可以指导我，因为我对我所拥有的数组应该做什么一无所知。谢

浏览 4提问于2019-12-13得票数 1

1回答

如何在使用scikit-learn/ sklearn训练决策树时处理分类数据？

machine-learning、scikit-learn、decision-tree

我正在尝试使用sklearn模块来训练决策树分类器。数据由一些分类特征和一些连续特征组成。但当我训练分类器时，具有1、2、3等值的分类特征被视为连续的。我得到的结果给出了一个范围，甚至对于特征的分类值也是如此。例如，我得到了一个决策树，其中X<4.5表示一个特定的类，其中X是一个分类特征。请注意，因为这里的X是分类的，所以

浏览 1提问于2015-05-19得票数 0

1回答

为什么决策树能很好地处理不平衡的数据？

machine-learning、linear-regression、decision-tree

我采取了线性回归和决策树。线性回归按预期工作：我们有很高的查准率和召回率，而抽样不足会使情况更糟。为什么两种模式有这么大的区别？

浏览 0提问于2017-09-07得票数 1

回答已采纳

1回答

将连续变量转换为离散(范畴)变量是否提高了基于树的模型的准确性？

decision-trees、categorical-data

我读过其他关于一个连续特性是否应该转换为分类的问题。但我感兴趣的是基于树的分类器，如决策树、随机森林、梯度增强等。我的直觉是，由于基于树的分类器试图在每个节点上找到最优分割或最佳测试，提供一个分类特征将使分割比提供一个连续特征更精确。我的问题是，做上述的数据预处理将导致高精度的情况下，基于树的模型还是相反的？

浏览 0提问于2020-05-29得票数 1

回答已采纳

1回答

对于二进制分类，哪种是最好的随机森林还是神经网络？

neural-network、deep-learning、classification、random-forest、machine-learning-model

我必须执行二进制分类，从一开始我就开始考虑使用随机森林分类器。但现在我在想，如果使用神经网络不会更好。所以我的问题是，你会选择哪一种模式？如果不是神经网络，最适合神经网络的任务是什么?为什么？

浏览 0提问于2019-05-22得票数 1

点击加载更多

决策树-非常稀疏特征的预处理

决策树分类器在使用OneHotEncoder转换分类特征之前是否计算熵，或者应该进行转换