与信息增益不同分裂准则的决策树_为什么xgboost的节点增益输出与手动计算的节点增益输出不同？_如何显示与DB值不同的信息 - 腾讯云开发者社区

python、machine-learning、scikit-learn、classification、decision-tree

我用Python生成了一个使用sklearn的决策树分类器，该分类器在准确性方面运行良好。我用线性规划的最优解训练分类器，它将项目的最优分配返回给类，同时考虑全局成本约束(即将项目1分配给A类，代价为x。所有项目和类的总结果成本需要小于y值)。在使用分类器对所有项目进行重新分类后，虽然分类精度是可以接受的，但在大多数分类运行过程中都违反了全局成本约束。当然，因为python中sklearn中的标准决策树不考虑约束。是否有方法将classification？之后的全局约束合并为？在下一次作业选择时，是否有办法强迫树考虑所有已经分类的项目？我认为这需要建立某种成本或惩罚函数，以便在树的分类过程

浏览 1提问于2019-01-19得票数 2

回答已采纳

2回答

分类特征值的独立决策树

classification、random-forest、decision-trees、xgboost

无论是基于特定特征值的不同决策树(如每个男性和女性的单独模型)还是单个决策树，两者都应该给出相同的结果吗？

浏览 0提问于2017-12-31得票数 1

4回答

特征重要性语境下的决策树解释

machine-learning、visualization、scikit-learn、data、decision-trees

我试图了解如何充分理解决策树分类模型的决策过程。我要看的两个主要方面是树的图形表示和特性重要性列表。我不明白的是特性的重要性是如何在树的上下文中确定的。例如，下面是我的特性重要性列表：特征排名: 1. FeatureA (0.300237) FeatureB (0.166800) FeatureC (0.092472) FeatureD (0.075009) FeatureE (0.068310) FeatureF (0.067118) FeatureG (0.066510) FeatureH (0.043502) FeatureI (0.040281) FeatureJ (0.039006

浏览 0提问于2017-02-02得票数 13

回答已采纳

1回答

决策树的特征重要性、离散化及判别准则

classification、decision-tree、feature-selection、entropy、information-theory

我正在处理数值特征，我想在sklearn中使用决策树分类器来找到特征的重要性。因此，如果选择熵准则进行分裂，信息增益就被用来衡量数据的不纯度。我猜，这相当于Fayyad &伊朗的二元离散化。最后，分类器返回一个名为“特征导入”的属性。特征的重要性。越高，功能就越重要。特征的重要性计算为该特征所带来的标准的(规范化)总体缩减。它也被称为基尼重要性R195。我的问题是，即使我使用信息增益来寻找最佳的分裂，“特征重要性”是否返回在熵准则下发现的分裂中所测量的基尼重要性的值？

浏览 6提问于2015-05-31得票数 0

2回答

决策树是试图最大化信息获取还是熵？

artificial-intelligence、decision-tree、entropy、information-theory

据我所知，决策树试图将高熵的分类器放在决策树上。然而，信息的获取是如何发挥作用的呢？信息增益被定义为： InformationGain = EntropyBefore - EntropyAfter 决策树是否试图将信息增益较低的分类器放置在树的顶部？那么，熵总是最大化，信息增益总是最小化吗？对不起，我只是有点糊涂。谢谢!

浏览 1提问于2013-12-19得票数 6

2回答

我们可以选择哪种决策树算法用于滑雪？

scikit-learn、decision-tree

我的问题是，我们可以选择哪种决策树算法用于滑雪？在滑雪板的用户指南中，提到了CART算法的优化版本。我们是否可以改用其他算法，如C4.5？

浏览 1提问于2015-12-11得票数 8

回答已采纳

1回答

决策树:信息获取--对属性的偏见--它是如何和为什么这么说的？

decision-tree

在下面一行(用粗体标记)中得到偏倚的上下文让我感到困惑：信息增益比使决策树不考虑大量不同值的属性，从而导致决策树过度拟合。

浏览 3提问于2021-09-30得票数 0

1回答

为什么在决策树中使用交叉熵而不是0/1损失？

machine-learning、scikit-learn、statistics、random-forest、decision-tree

我知道交叉熵/互信息在分类决策中是如何作为损失函数工作的。但我不知道为什么0/1的输球不是一个好的选择。

浏览 1提问于2018-05-12得票数 1

回答已采纳

1回答

(新手)决策树随机性

python、decision-trees

我从数据科学( Data )开始，为了取得进展，我刚刚运行了西拉杰·拉瓦尔的数据科学导论视频中的代码。他实现了一个简单的决策树分类器，但我不得不注意到，在相同的训练集下，分类器并不总是产生相同的预测(或者显然是相同的匹配)；我碰巧发现这非常奇怪，因为根据我所学到的，决策树应该是确定性的。我唯一能想到的可能会导致随机性的事情是，分支在某个时刻被随机选择，因为两个选项的价值可能是相同的。我想说，这可以用一些更多的训练数据来纠正，但是即使我再增加5个人，也没有什么变化。有人对发生了什么事有什么解释吗？下面是for循环中视频中的代码(用Python语言)来计算决策树对男性和女性的预测量。 from

浏览 0提问于2018-08-09得票数 1

回答已采纳

1回答

不同准则决策树权重基

decision-tree、rapidminer、weighted、criterion

问题是:如何使用RapidMiner软件使用不同的标准(如gain_ratio、information_gain、gini_index、准确性)来计算决策树权重基。在决策树(weight_base)运算符中，没有此选项。谢谢

浏览 3提问于2017-07-20得票数 0

1回答

决策树性能

machine-learning、decision-tree

如果我们不给任何约束，如max_depth，minimum number of samples for nodes，决策树总能给0训练错误吗？还是取决于数据集？显示的数据集呢？编辑-它有可能有一个分裂，从而导致的准确性低于父节点，对吗？根据决策树理论，即使几次分割后的最终结果可以很好，也应该停止在那里进行分割！我说的对吗？

浏览 5提问于2020-04-22得票数 1

回答已采纳

1回答

为什么不使用AUC或其他度量来分割决策树中的节点？

decision-trees

在决策树及其所有变体中，有常见的分割树的方法：基尼指数熵错误分类为什么没有一种方法直接使用AUC或准确性(或建模者需要的任何方法)来拆分节点。是因为普遍使用，还是有数学解释？

浏览 0提问于2019-04-27得票数 1

回答已采纳

2回答

在MATLAB和scikit之间，对于决策树的学习是不同的。

python、scikit-learn、decision-trees、accuracy、matlab

是否有可能通过使用python代码改变matlab和jupyter笔记本中相同数据集的准确性？对于相同的数据集，首先在matlab中应用，决策树法的准确率为96%，然后使用python代码将相同的数据集应用到jupyter笔记本中，通过k次交叉验证，C4.5 (决策树)的准确率为53%。我不明白对于相同的数据集和相同的方法获得不同的准确性的问题在哪里。我在python代码中的过程如下所示： import pandas as pd import numpy as np from sklearn import tree from sklearn.model_selection import

浏览 0提问于2019-01-23得票数 2

回答已采纳

1回答

SystemML决策树--“节点1.0的样本数不能减少到匹配10个”

algorithm、apache-spark、machine-learning、decision-tree、systemml

我试图在Windows上的SystemML独立版本()上运行一个决策树，但我一直收到错误：“不能将节点1.0的样本数减少到与10匹配。此节点为DECLAR ED！”这段代码似乎没有计算任何分裂，虽然我可以通过R执行树，以前有人使用过这个算法，并且有一些关于如何解决错误的提示吗？谢谢

浏览 4提问于2016-08-02得票数 1

回答已采纳

1回答

如何在decision_tree规范中设置拆分规则？

r、random-forest、decision-tree、tidymodels

在创建带有tidymodels元封装和decision_tree()函数的决策树时，rpart包中用于分类数据的默认分割方法/规则是Gini索引，该索引使用rpart::rpart()的params参数设置。此外，使用ranger引擎创建随机林模型时，对分类数据也使用相同的默认设置。我的问题是：如何将分裂方法改为信息增益或香农熵？。下面是一个示例(关注str()调用和formas_forest_fit对象以查看拆分规则) # install.packages(c("tidymodels", "rpart", "ranger")) librar

浏览 3提问于2021-10-06得票数 0

回答已采纳

2回答

为什么我们需要一个增益比

machine-learning、decision-trees、algorithms

我正在学习决策树，到目前为止，我觉得我已经很好地理解了它们及其背后的数学，除了一件事:增益比。据我所知，实现增益比是为了惩罚可能具有许多可能值的特性。如果一个特性包含了许多可能的值，那么如果我们对该特性进行拆分，可能会出现只指向单个类的值，但仅仅是因为该特性的值只有1到2个数据点。换句话说，我们在这个特性上分裂的唯一原因是，这个特性可能包含很多值，因此其中很多值都是专门指向单个标签的。因此，我们的决策树算法最终会分裂成"ID #“之类的东西，错误地计算出我们只是获得了巨大的信息增益。然而，这似乎只是一个问题，因为"ID#“是一个我们不应该分割的特性。我的意思是，如果我们

浏览 0提问于2018-09-16得票数 1

回答已采纳

8回答

什么时候我应该使用基尼杂质，而不是信息增益(熵)？

machine-learning、decision-trees、information-theory

有人能实际解释基尼杂质和信息增益 (基于熵)背后的原理吗？在使用决策树时，哪个指标更适合在不同的场景中使用？

浏览 0提问于2016-02-12得票数 108

3回答

如何在非分类数据的决策树中的节点上发生分裂？

scikit-learn、decision-trees

根据一个网站(:http://dataaspirant.com/2017/01/30/how-decision-tree-algorithm-works/)，这些值是随机选择的： 📷 我不认为创建决策树的任何优化方法都是这样的。在此映像(不同的示例)中，根节点的值为2.45： 📷 这个值是随机选择的，就像在网站上解释的那样吗？如果不是随机选择，那么如何计算？

浏览 0提问于2019-03-01得票数 3

1回答

在决策树中，如果有一个具有多个分支的节点，应该使用哪个日志库？

algorithm、statistics、random-forest、decision-tree、entropy

下面这个问题让我很困惑。你能帮我吗？(最好找些学术参考。) 我们通常使用base-2日志函数来计算决策树中的熵，这是因为大多数节点只允许二进制分支吗？如果我想拥有一个具有多个分支的节点，理论上log2仍然有效吗？例如，在Xgboost中，训练集输入应该是矩阵的形式，我认为这意味着我们只能将数值作为输入。非常感谢!

浏览 1提问于2018-10-03得票数 1

回答已采纳

1回答

关于分类特性的特性重要性的查询

feature-selection、feature-engineering、categorical-data

关于分类特性的特性重要性的查询：上下文:我有几乎185个分类特性，这些分类特性有2、3、8、1或有时4类，null也是。我需要为我的模型选择前60个功能。我还了解到，需要根据业务重要性或通过随机森林/决策树选择特征重要性来选择特征。查询：我已经绘制了每个特征(价值计数与类别)的直方图来进行分析。选择功能是否重要的方法是什么？从分类数据中获得特征重要性，数据科学行业遵循的标准实践是什么？是否有基本和优雅的方式来选择最重要的特性？我如何设计这些分类特征？

浏览 0提问于2018-12-15得票数 1

1回答

基尼指数、卡方法和信息增益分裂法有什么不同？

decision-trees

我正在查看决策树，我不明白是什么使这些方法不同。有人能解释清楚这两者之间的区别吗？谢谢。

浏览 0提问于2019-04-04得票数 1

2回答

基于信息增益和熵的决策树归纳

decision-trees

我试图构建一个决策树算法，但我想我误解了信息获取是如何工作的。假设我们有一个平衡的分类问题。因此，初始熵应该等于1。让我们将信息增益定义为： info_gain = initial_entropy weighted_average(entropy(left_node)+entropy(right_node)) 如果我们减少初始熵，即if info_gain > 0. If info_gain == 0，这意味着 weighted_average(entropy(left_node) + entropy(right_node)) == initial_entropy. 假设我们有四个特

浏览 0提问于2020-05-21得票数 2

1回答

在构建决策树时，有哪些方法可以识别一个好的属性测试？

decision-trees

我正在手工学习一棵决策树。从我的研究中，我发现了以下三种方法来确定要拆分哪些变量：最小剩余值-选择合法值最少的变量。度启发式-对剩余值的约束最大的变量最小约束值--排除剩余变量中剩余值最少的变量。我有这个权利吗？还有什么其他的方法来确定分裂呢？

浏览 0提问于2019-11-16得票数 0

回答已采纳

1回答

信息增益vs最小化熵

math、decision-tree、entropy、information-gain

在什么情况下，信息增益最大化不等同于熵最小化？更广泛的问题是，为什么我们需要信息增益的概念？仅仅使用熵来决定决策树的下一个最优属性还不够吗？

浏览 10提问于2015-11-21得票数 2

1回答

基于sklearn的决策树算法的类型

scikit-learn

有不同类型的决策树算法。ID3，CART，C4.5。我需要帮助来识别哪种算法是由sklearn在Python中实现的？

浏览 2提问于2018-03-06得票数 1

回答已采纳

2回答

计算特定属性的熵？

decision-tree、id3、entropy、information-gain

这非常简单，但我正在学习决策树和ID3算法。我找到了一个非常有用的网站，我一直在跟踪关于熵和信息获取的所有信息，直到我我不明白每个属性(阳光、风、雨)的熵是如何计算的--具体来说，p-sub是如何计算的。它似乎与熵(S)的计算方法不同。有人能解释一下这个计算的过程吗？

浏览 1提问于2016-06-15得票数 1

回答已采纳

1回答

决策树回归背后的数学？

machine-learning、statistics、regression、data-science、decision-tree

我试图理解决策树背后的数学(回归)。我看到了两篇文章，两篇文章都以不同的方式解释了如何在回归树中进行拆分。谁能指出哪一个是正确的，还是两者是相似的，只是方法不同？谢谢,

浏览 0提问于2019-08-17得票数 1

回答已采纳

4回答

在决策树中处理异常值和空值

classification、regression、decision-trees、outlier

离群值:据我所知，决策树对异常值是稳健的。有人能证实我的假设是否正确吗？(如果我的特征从0到9不等，但存在一个值为10000的异常值，那该怎么办？)它是否为这个离群点样本创建了一个单独的叶子，还是会与其他树的叶子合并？空值:在使用决策树建立模型之前，我们需要替换空值吗?还是由决策树技术自动处理？谢谢。

浏览 0提问于2018-05-09得票数 6

回答已采纳

3回答

R与Python决策树

machine-learning、python、r、decision-trees

根据我的经验，R决策树返回比python决策树更精确的结果。能不能再证实这个假设，也许知道原因？

浏览 0提问于2018-05-09得票数 8

回答已采纳

4回答

决策树的缺点

decision-trees

我在博客中看到决策树有以下缺点：不适合连续变量如果这是真的那为什么？

浏览 0提问于2018-05-10得票数 1

1回答

吉尼指数作为叶节标记策略的研究

machine-learning、decision-trees

我们可以使用gini索引将类分配给叶节点吗？如果是，怎么做？据我所知，吉尼指数只能作为分裂指标。

浏览 0提问于2020-04-22得票数 2

1回答

关于决策树的预测

machine-learning、data-science、decision-tree

决策树如何预测新数据集上的输出。假设使用超参数，我允许我的决策树只增长到一定程度，以避免过度拟合。现在，一个新的数据点被传递到这个经过训练的模型，因此新的数据点到达其中一个叶节点。但是叶节点如何预测数据点是1还是0呢？(我在这里谈论的是分类)。

浏览 1提问于2020-04-28得票数 0

1回答

在星火MLlib的决策树中获取每个叶的默认元素数

scala、apache-spark、apache-spark-mllib、decision-tree

如果可能的话，我希望在星火MLlib决策树中获得每个叶的默认元素数。我在这里读过，也试图在中找到一些东西，但是我找不到我需要的信息。我知道minInstancesPerNode策略参数，但不是我想要的。有什么想法吗？谢谢!

浏览 1提问于2019-08-28得票数 2

回答已采纳

1回答

随机森林与log_loss度量？

random-forest、lightgbm

轻型gbm具有与log_loss相结合的二值或多分类度量。随机森林也有log_loss的损失函数吗？

浏览 0提问于2020-02-11得票数 1

1回答

什么决策树算法用于科学学习中的随机森林分类器

scikit-learn、random-forest、decision-tree

在标题中，我想知道在哪里可以检查RandomForestClassifier在scikit-learn中使用了哪些决策树算法。它在“属性”( attributes base_estimator_ = DecisionTreeClassifier )中写道，那么在“科学学习”中的DecisionTreeClassifier后面是“购物车”，那么这是我的答案吗？链接到scikit-学习如有任何建议，将不胜感激

浏览 0提问于2020-11-14得票数 1

回答已采纳

1回答

如何选择拆分决策树的顺序？

regression、decision-trees

我知道决策树沿着每个属性递归地分裂，贪婪地将错误的分类/偏差降到最小。但是，属性被拆分的顺序是什么呢？换句话说，对于N维的回归树，是什么决定了哪个属性首先被分割？

浏览 0提问于2015-10-01得票数 1

1回答

如何为决策树的连续特征选择分裂变量

python、machine-learning、artificial-intelligence、decision-tree、machine-learning-model

我目前正在实现决策树算法。如果我有一个连续的特色数据，我如何确定一个分割点。我遇到了一些资源，说要在每两个点之间选择中点，但考虑到我有8000行数据，这将非常耗时。输出/特征标签具有类别数据。是否有任何方法可以让我更快地执行此操作

浏览 20提问于2019-06-01得票数 0

1回答

Azure机器学习决策树熵/信息增益

decision-tree、cortana-intelligence、azure-machine-learning-studio、information-gain

在Azure ML中训练决策树时，是否有方法可以看到每个特性的熵/信息增益？

浏览 4提问于2016-03-09得票数 0

回答已采纳

1回答

随机森林中树中每个节点的随机变量选择

machine-learning、classification、random-forest、decision-trees

在随机森林方法中，对每棵树随机选择一组固定大小的变量(特征)。但是一旦这个集合被冻结，树是否像一个规则的决策树算法？我假设随机森林只不过是产生了一堆经典的“决策树”，并对最终的分类进行投票。但是在许多地方，我读到的任何描述似乎都表明了这一点；对于森林中的给定决策树，即使是在每个节点，我们也会随机地选择变量。是这样吗？这是否意味着，在树的每个节点，我们随机选择m个变量集，为该树是固定的？还是来自培训数据集的全局变量集？然后，从选定的变量集合中，我们启发式地选择了1个变量(例如，任何一个变量最大化信息增益)-这是正确的语句吗？

浏览 0提问于2017-04-08得票数 4

回答已采纳

1回答

学习DecisionTreeRegressor算法不一致

scikit-learn、decision-tree、mse

我目前正在使用决策树(使用Scikit学习DecisionTreeRegressor)来拟合回归树。我面临的问题是，使用与6个月前相同的数据的算法，在输出(即。最优分裂点)。我猜可能是他们计算mse标准的方式略有改变，或者类似的情况。有人知道吗？

浏览 13提问于2022-03-25得票数 0

2回答

决策树中的序数特征

decision-trees

我很好奇序数特征是否与决策树中的分类特征不同，我对目标是绝对或连续的两种情况都感兴趣。如果有不同之处，你能指出好的源代码和任何支持它的软件包(R或Python)吗？

浏览 0提问于2016-09-15得票数 3

回答已采纳

1回答

当我的13个自变量中有7个是分类变量时，我如何获得详细的决策树？

r、decision-tree

我正在使用具有13个自变量(其中7个是分类变量)的决策树来分析持久性，但我得到的树只考虑了一个数值变量)。我的代码是： fmla=STATUS~. tm=rpart(fmla, data=trainData,method = "class")

浏览 3提问于2016-06-07得票数 0

1回答

Weka:实现随机森林

random-forest、weka

我想知道在Weka是如何实现随机森林的。本论文对Weka中的RFs非常具体，但是在第二章中对它的学习过程的描述对我来说似乎很奇怪。他们说：每个树B_i的引导示例t_i 为每个t_i选择一个随机的特征子集。信息增益用于生长未修剪的树t_i 我的问题：不应该在决策树的所有级别上重复步骤2吗？否则，每棵树都不会看到其中的一些特性。设置numFeatures=0时，默认设置是什么？我认为这是为每个拆分提供的功能的数量。它是所有功能数量的平方根吗？信息增益真的用于确定最佳拆分属性吗？我正在使用Weka 3.8.3 -不确定这是否重要。 (谢谢你的提示:)

浏览 0提问于2020-02-19得票数 1

回答已采纳

1回答

找出区分两组的最重要的特征

machine-learning、data-cleaning

假设我们有两个小的特征向量集(每个特征向量代表一个项)。在这两个集合(小样本，50个样本)之间有最大差异(分布)的特征是什么？考虑到每个特性的数据分布不一定正常。

浏览 0提问于2018-05-28得票数 3

回答已采纳

1回答

不同决策树算法的复杂度和性能比较

performance、machine-learning、complexity-theory、classification、decision-tree

我正在研究数据挖掘，更准确地说，是决策树。我想知道是否有多个算法来构建一个决策树(还是仅仅一个？)，哪一个更好，基于如下标准性能复杂性决策失误还有更多。

浏览 4提问于2012-04-02得票数 45

回答已采纳

1回答

为什么在用PCA进行简化后拟合随机森林模型时性能会受到影响？

python、scikit-learn、random-forest、pca、mnist

这个问题涉及到在一个完整的特征集上的随机森林分类器模型与在进行PCA后减少的组件数量上的随机森林模型之间的速度比较。我正在使用MNIST，它有6万行用于我的训练(X_train)和10,000行用于我的测试(X_test)，以及784个表示28x28图像的像素。对于完整的特性，我使用clock()来测量所需的时间，如下所示： clf = RandomForestClassifier() t0 = time.clock() clf.fit(X_train, y_train) runtime = time.clock() - t0 对于PCA和随机森林，我正在做类似的事情： pca = PCA(

浏览 2提问于2018-07-29得票数 1

回答已采纳

1回答

Weka:如何在J48决策树中实现代理项拆分？

java、weka、decision-tree、missing-data、surrogate-pairs

有谁能帮助我使用Java在J48算法中实现另一种缺失值处理。我确信，在训练J48之前使用预估算方法是容易的. 但是，在划分训练日期的情况下，如何使用代理项拆分属性(就像Breiman在CART中所做的那样)，而不是使用J48标准方法(C4.5中的Quinlan)将情况从已知值的观测案例中分割成概率分布。谁能给我一些信息，提示，帮助，在哪里的Weka API和源代码a必须修改，以取代标准的代孕分割？

浏览 4提问于2014-07-08得票数 0

回答已采纳

1回答

R中的决策树

r、machine-learning、decision-tree

我是R中的机器学习新手。这是我的数据集： channels <- sample(c("AFFILIATE","DIRECT","DISPLAY"),100,T) booking <- sample(c("N","Y"),100,T) placements <- sample(c("R","L","TR","TL"),100,T) site <- sample(c("www.google.com","www

浏览 1提问于2014-07-01得票数 0

2回答

特征选择对决策树算法有影响吗？

machine-learning、feature-selection、decision-trees

背景:目前，我正在从事我的论文项目，即建立基于树的集成方法，用于在一个大数据集上进行分类。在我开始建模之前，我花了大量的时间在特征选择上，使用基于相关性的标准来选择一个特征子集，这样这些选择的特征与响应变量有很高的相关性，并且彼此之间的相关性很低。然而，我的一位主管问我为什么花那么多时间在特征选择上，正如他提到的，决策树算法可以自然地选择哪些特征是最重要的。后来，我查阅了Tan (2014)的“数据挖掘入门”一书，书中明确指出，“特征选择是数据挖掘算法的一部分，例如决策树分类器”。我对在功能选择上花费时间感到有点沮丧。当我最终运行有和没有特征选择的模型时，它不会显示出结果之间的任何显著差异。

浏览 0提问于2019-05-08得票数 9

1回答

决策树分割策略

machine-learning、scikit-learn、classification、decision-tree、gini

我有一个包含4个分类特征(胆固醇、收缩压、舒张压和吸烟率)的数据集。我使用决策树分类器来找出中风的概率。我正在尝试验证我对Python Sklearn所做的拆分过程的理解。由于它是二叉树，因此有三种可能的方法来拆分第一个特征，即将类别{0和1分组到一个叶子，将2分组到另一个叶子}，或者{0和2，1}，或者{0，1和2}。我所知道的(请在这里纠正我)是所选择的分割是具有最小信息增益的分割(基尼杂质)。我已经计算了三种分组方案中每一种情况的信息增益： {0 + 1 , 2} --> 0.17 {0 + 2 , 1} --> 0.18 {1 + 2 , 0} --> 0.

浏览 3提问于2019-12-24得票数 0