决策树cart算法python_cart算法python实现_Python决策树分类算法 - 腾讯云开发者社区

有不同类型的决策树算法。ID3，CART，C4.5。我需要帮助来识别哪种算法是由sklearn在Python中实现的？

浏览 2提问于2018-03-06得票数 1

回答已采纳

2回答

在随机森林中使用什么样的决策树？

、、

阅读一些文档(对于示例)，我知道有很多类型的决策树(Cart、ID3等等)。我还知道，随机森林是一种使用一组决策树的粒子算法。我的问题是:在随机森林中，使用什么样的决策树？(cart，id3，.)

浏览 0提问于2022-03-21得票数 0

回答已采纳

2回答

在spark决策树中使用什么算法(是ID3、C4.5还是CART)

、

我有一个关于MLlib中决策树的问题。Spark中使用的是什么算法？是ID3，C4.5还是CART？

浏览 5提问于2016-12-07得票数 8

2回答

scikit-learn默认使用哪种决策树算法？

、

有几种算法可以构建决策树，例如CART (分类和回归树)、ID3 (迭代二叉树3)等 scikit-learn默认使用哪种决策树算法？当我查看一些决策树python脚本时，它使用fit和predict函数神奇地生成结果。 scikit-learn会根据数据聪明地选择最好的决策树算法吗？

浏览 25提问于2019-08-21得票数 2

回答已采纳

1回答

python中的决策树--将sklearn更改为使用c4.5

、、

我的问题是，我们可以选择哪种决策树算法用于滑雪？在滑雪板的用户指南中，提到了CART算法的优化版本。我们是否可以改用其他算法，如C4.5？

浏览 2提问于2021-03-14得票数 1

1回答

有人能解释一下ID3和CART算法的区别吗？

、、、

我必须用R软件和rpart软件包创建决策树。本文首先定义了ID3算法，然后实现了各种决策树。我发现rpart包与ID3算法不兼容。它使用了CART算法。我想了解两者的差异，也许可以解释我的论文中的不同之处，但我没有找到任何将两者进行比较的文献。你能帮帮我吗?你知不知道哪一篇论文两者比较过，或者你能向我解释一下两者的区别吗？

浏览 4提问于2013-11-20得票数 5

1回答

当我阅读关于决策树的scikit--学习用户手册时，他们提到 CART (分类和回归树)与C4.5非常相似，但它的不同之处在于它支持数值目标变量(回归)，不计算规则集。CART使用特征和阈值构造二叉树，在每个节点上获得最大的信息增益。我不明白C4.5算法在哪里计算规则集(我甚至不知道规则集是什么意思)。它与购物车本质上是一样的，只不过它使用吉尼指数而不是交叉熵。请有人详细解释哪些规则集是什么以及它们在C4.5中是如何使用的？

浏览 0提问于2017-09-23得票数 6

2回答

在决策树的CART算法中，基尼指数是如何最小化的？

、、、、

例如，对于神经网络，我使用反向传播算法将代价函数最小化。在决策树中是否存在与基尼指数相当的东西？ CART算法总是说：“选择集A的分区，这使基尼指数最小化”，但是我怎么才能从数学上得到这个划分呢？任何有关这方面的投入都会有帮助:)

浏览 2提问于2019-08-30得票数 0

回答已采纳

1回答

如何在购物车中选择决策树的特性？

假设我想使用CART作为分类树(我需要一个明确的响应)。我有训练集，我用观察标签来分割它。现在，要构建决策树(分类树)，如何选择特征来决定哪个标签适用于测试观察？假设我们正在研究基因表达矩阵，其中每个元素都是一个实数，这是否使用了类之间距离更远的特性呢？

浏览 0提问于2014-07-02得票数 4

回答已采纳

3回答

Tensorflow支持决策树分类器吗？

、、、、

我试图实现决策树分类器来分类我的数据集。我正在使用Python。现在在scikit学习中很容易实现，但是我如何在tensorflow中实现这一点。

浏览 0提问于2018-02-20得票数 10

回答已采纳

1回答

随机林的可能算法

、、、、

我正在研究随机森林，我在寻找随机森林的算法。我已经查找了决策树的算法(如ID3、C4.5、CART)。但是，对于随机森林，有哪些不同的算法？我没有完全理解它的文学。你能说套袋和ExtraTrees就是例子吗？提前感谢

浏览 4提问于2019-11-19得票数 2

回答已采纳

1回答

可以使用scikit learn构建id3决策树吗？

、、

所以我试图构建一个ID3决策树，但在sklearn的文档中，他们使用的算法是CART。但我也读到ID3使用熵和信息增益来构建决策树。已尝试使用dtree=DecisionTreeClassifier(criterion='entropy')，但生成的树不可靠。要获得ID3决策树，我应该在DecisionTreeClassifier()中编辑哪些参数？

浏览 9提问于2019-02-07得票数 1

1回答

韦卡能做什么?巨蟒和滑雪者不能做什么？

、、

我想建立各种分类和回归决策树。我的用例集中于决策规则的提取和交流。以前，weka在我的组织中被用于决策树学习。weka可以做Python或Sklearn不能做的事情吗？我目前使用熊猫，小熊，枕木，和sk-学习和其他图书馆为我的工作流程。

浏览 0提问于2020-07-03得票数 2

2回答

在MATLAB和scikit之间，对于决策树的学习是不同的。

、、、、

是否有可能通过使用python代码改变matlab和jupyter笔记本中相同数据集的准确性？对于相同的数据集，首先在matlab中应用，决策树法的准确率为96%，然后使用python代码将相同的数据集应用到jupyter笔记本中，通过k次交叉验证，C4.5 (决策树)的准确率为53%。我不明白对于相同的数据集和相同的方法获得不同的准确性的问题在哪里。我在python代码中的过程如下所示： import pandas as pd import numpy as np from sklearn import tree from sklearn.model_selection import

浏览 0提问于2019-01-23得票数 2

回答已采纳

1回答

决策树或规则

可以使用什么标准来决定是否使用oneR或jRip(包含在RWeka中)来开发决策树或一个或多个规则。这两种算法(决策树和规则)的相似性很高，使其有点混乱。

浏览 0提问于2016-04-26得票数 1

回答已采纳

1回答

决策树在助推中的实现

、、、

我正在实现AdaBoost(增强)，它将使用CART和C4.5。我读过关于AdaBoost的文章，但是我找不到关于如何将AdaBoost与决策树连接起来的很好的解释。假设我有有n个例子的数据集D。我把D到TR训练的例子和TE测试的例子分开。假设TR.count = m，所以我设定的权重应该是1/m，然后我用TR构建树，用TR测试它得到错误的例子，用TE测试来计算错误。然后我改变重量，现在我将如何获得下一套训练？我应该使用什么样的抽样(有或没有替换)？我知道新的培训集应该更多地集中在错误分类的样本上，但是我如何实现这一点呢？那么，CART或C4.5如何知道他们应该把注意力集中在权重更大的例子上呢

浏览 1提问于2016-12-16得票数 0

回答已采纳

1回答

为什么python中的决策树算法每次运行都会改变？

、

我正在学习关于使用python的数据科学的udemy课程。本课程侧重于算法的输出，而较少关注算法本身。特别是，我正在执行一个决策树。每次我在python上运行算法，也使用相同的样本，算法给我一个稍微不同的决策树。我问过导师，他们告诉我：“决策树不能保证每一次运行的结果是相同的，因为它的性质。”有人可以解释我为什么要更详细的解释，或者给我一个好书的建议？我完成了数据导入的决策树： import numpy as np import pandas as pd from sklearn import tree 并执行以下命令： clf = tree.DecisionTreeClassifier()

浏览 1提问于2022-03-01得票数 0

2回答

星火Scala替代机器学习库？

、、、

我使用Spark进行多类分类，并且特性是连续的。对于这类分类，MLlib似乎仅限于决策树和随机森林--对于Na、多项式和Bernoulli，我需要使用高斯，而LogisticRegressionWithLBFGS也不合适。我知道在Python中，您可以将sci学习与Spark集成在一起，但是在使用Scala时有什么选择吗？想听听人们对此的想法。

浏览 0提问于2016-05-27得票数 2

2回答

决策树:冲刺对SLIQ？

、

我发现了不同类型的决策树，例如SPRINT和SLIQ方法。这两种方法都用于解决分类问题，使用Gini索引进行特征选择并遵循步骤(根据幻灯片8上的这 )：开始对样本进行预分类。只要没有达到停止标准:对于每个属性:将所有节点放置到类直方图中，并开始对拆分进行评估。选择一个分裂。更新决策树；对于每个新节点，更新其类列表(节点)。所以，我的问题是: SPRINT算法和SLIQ算法有什么区别？

浏览 0提问于2022-03-29得票数 1

回答已采纳

1回答

利用交叉熵建立决策树分类器

、

熵和交叉熵是否与基本定义相同？如果有不同之处：决策树分解取熵或基尼指数，可以用交叉熵来分割决策树吗？或者，在运行决策树算法之后，我应该使用它作为评估指标吗？此外，决策树算法是否假定有任何分布？如果是，那么我们如何使用KL发散度呢？我只是想把几个概念从更广泛的角度联系起来。以下是我对多类决策树的关注。

浏览 0提问于2020-01-16得票数 2

1回答

在RapidMiner中优化决策树参数

、、

我正在处理一个相当大的数据集(770K记录，2K属性，几乎所有这些属性都是二项式的，但都是整数形式的)，我想通过10折交叉验证将决策树应用于数据，但我遇到了一些问题： 1.为什么决策树(例如深度为10的决策树)需要这么多时间来训练？实际上，在训练树之前，我平衡了数据(因为它是不平衡的)到原始大小的40% (~320K记录)，但这仍然需要很多时间，有没有其他版本的决策树可以产生相同的性能和更少的时间？(将属性设置为二项式形式是否会使其更快?) 2.如何优化决策树的参数？我应该在整个X-validation上对其进行优化吗？

浏览 1提问于2012-12-30得票数 0

2回答

关于决策树的问题

、、、

在研究了决策树一段时间后，我注意到有一种小技术叫做boosting。我看到在正常情况下，这将提高决策树的准确性。所以我只是在想，为什么我们不简单地将这种增强合并到我们建立的每个决策树中呢？由于目前我们将boosting作为一种单独的技术，所以我在思考:使用boosting比只使用单个决策树有什么缺点吗？谢谢你在这里帮我！

浏览 3提问于2010-11-24得票数 1

回答已采纳

1回答

带有Adaboost的决策树/树桩

、、

我刚开始与Adaboost一起学习决策树，并在OpenCV上试用，并有一些问题。增强决策树我知道，当我使用Adaboost与决策树，我不断地拟合决策树，以重新加权版本的培训数据。分类以加权多数票进行。当使用Adaboost训练决策树时，我可以使用引导吗？也就是说，我们选择数据集的子集，并在每个子集上训练一棵树，然后将分类器输入Adaboost。增强决策桩我是否对决策桩使用同样的技术？或者我可以创建与功能数量相等的树桩吗？也就是说，如果我有两个有10个特性的类，在将分类器输入Adaboost之前，我会为每个特性总共创建10个决策集。

浏览 8提问于2016-08-08得票数 1

回答已采纳

6回答

字符串作为决策树/随机林中的特征

、、、、

在一个决策树/随机森林的应用中，我正在做一些问题。我试图适应一个问题，它有数字和字符串(如国家名称)作为功能。现在，科学知识-学习只使用数字作为参数，但是我想注入字符串，因为它们携带了大量的知识。我如何处理这种情况？我可以通过某种机制(如Python中的散列)将字符串转换为数字。但是我想知道在决策树问题中如何处理字符串的最佳实践。

浏览 0提问于2015-02-25得票数 85

回答已采纳

1回答

Python分类和回归树的错误

、、、

我正在学习如何在python中使用决策树。我修改了一个示例，以导入csv文件，而不是使用此站点的虹膜数据集：代码： import numpy as np import urllib from sklearn.tree import DecisionTreeClassifier from sklearn import tree from sklearn import datasets from sklearn import metrics # URL for the Pima Indians Diabetes dataset (UCI Machine Learning Repository

浏览 0提问于2016-01-13得票数 0

1回答

随机森林与RainForest之争

、、

我研究过随机林和RainForest的论文，但它们有点让人困惑！总之，我理解这些算法的以下步骤。你能帮我查出我说的对不对吗？谢谢你的帮助。在兰登森林第一：定义树数通过引导来划分数据在每个分区构造树上(在每个节点中选择一个特征子样本) 标签叶节点用于对新实例进行分类时，可以对所有树进行投票。在RainForest中：分区数据集构建AVC-分区集通过计算AVC-集上的纯度标准(如gini-索引)，在分区上构建树。

浏览 0提问于2018-05-16得票数 2

回答已采纳

2回答

决策树是试图最大化信息获取还是熵？

、、、

据我所知，决策树试图将高熵的分类器放在决策树上。然而，信息的获取是如何发挥作用的呢？信息增益被定义为： InformationGain = EntropyBefore - EntropyAfter 决策树是否试图将信息增益较低的分类器放置在树的顶部？那么，熵总是最大化，信息增益总是最小化吗？对不起，我只是有点糊涂。谢谢!

浏览 1提问于2013-12-19得票数 6

1回答

有决策树的Adaboost (自适应增强)方法的例子是什么？

、、、

有什么好的教程可以解释如何在为样本训练集构建决策树的连续迭代过程中对样本进行加权？我想明确地说，在构建第一个决策树之后，如何分配权重。决策树是使用信息增益作为锚来设计的，我想知道这是如何由于先前迭代中的错误分类而受到影响的。任何好的教程/例子都是非常感谢的。

浏览 2提问于2014-09-21得票数 3

回答已采纳

1回答

causalml包:随机森林可以处理连续响应变量吗？

、、

Python有一个名为causalml的package，可用于隆起建模。我试图在响应变量是连续的情况下模拟隆起。这个包中的决策树模块不能处理连续的响应变量，但是当我使用随机森林模块时，它可以工作。我在documentation的某个地方看到，这个包中基于树的模块只针对分类问题而设计。我想知道这个包是否能处理连续响应变量。我可以相信我从随机森林模块得到的结果吗？

浏览 46提问于2020-11-06得票数 1

2回答

我们可以选择哪种决策树算法用于滑雪？

、

我的问题是，我们可以选择哪种决策树算法用于滑雪？在滑雪板的用户指南中，提到了CART算法的优化版本。我们是否可以改用其他算法，如C4.5？

浏览 1提问于2015-12-11得票数 8

回答已采纳

1回答

什么时候决策树比神经网络表现得更好？

、、、

我试验了不同的建模方法，包括KNN、决策树、神经网络和SVN，并试图对我的数据进行拟合，看看哪种方法最有效。令我惊讶的是，决策树的最佳工作方式是训练精度为1.0，测试精度为0.5。无论训练精度为0.92，测试精度为0.42，神经网络的性能都是最好的，比决策树分类器低8%。请有人解释一下，与决策树这样的建模技术相比，神经网络可能具有低精度的情况/情况。我尝试过不同配置的神经网络，比如： 1 hidden layer and 1 neuron : Train Accuracy 34% Test Accuracy 42% 7 hidden layers and 5 neurons in each

浏览 0提问于2018-09-16得票数 9

1回答

一段时间内流行的分类算法

、、

在Francois Chollet (2018)的“与Python一起深入学习”一书中，我们可以在1.2.4节中找到：决策树从数据中学到的知识在21世纪初开始受到广泛的研究兴趣，到了2010年，它们往往比内核方法更受青睐。..。特别是，随机森林算法引入了一种鲁棒的、实用的决策树学习方法，它涉及到建立大量的专门决策树，然后对它们的输出进行集成。随机森林适用于各种各样的问题--你可以说，它们几乎总是任何浅层机器学习任务的第二好算法。当广受欢迎的机器学习竞赛网站Kaggle (http://kaggle.com)于2010年启动时，随机森林很快就成了平台上的宠儿--直到2014年梯度助推机取代了它

浏览 0提问于2019-09-21得票数 2

1回答

CART算法使用的离散化方法是什么？

、、

我目前正在做一个科学学习项目，我想知道分类器使用的决策树算法是如何工作的。我试着理解如何选择树节点上的测试，但是对于该算法用于离散连续变量的方法，我找不到任何解释。我在一篇文章中看到，一些决策树算法使用Tsch链接的T方法，但我不确定CART是否在使用它。有人知道吗？

浏览 2提问于2016-11-30得票数 0

回答已采纳

2回答

决策树中的下一个最佳预测

、、、、

我使用决策树分类器来预测基于以下数据选择的块。 📷 我能够预测基于数据的“块选择”列。怎样才能得到第二好，第三最好的预测等等(我需要一个有序的列表)？我能用决策树得到这个吗？或者我应该使用不同的模型？对于如何使用python学习这一点，有什么想法吗？

浏览 0提问于2018-05-10得票数 0

回答已采纳

1回答

如何在scikit learn中设置决策树分类器的分支数？

、

我正在使用scikit-learn，但不知道如何设置决策树的分支数……对于决策树，二叉树是最优的吗？

浏览 1提问于2019-10-24得票数 0

1回答

连续目标变量的决策树

我正在尝试构建一个决策树，其中我在r.which决策树中混合了自变量和连续因变量，我可以应用吗？我不想使用购物车，因为我想要2个以上的分割。

浏览 7提问于2015-08-20得票数 0

1回答

用条形图绘制R中CART变量的重要度

、、

如何绘制R中决策树(CART)的变量重要性？因为我是R的新手，所以我需要代码(如果可能的话，我想用条形图来绘制每个变量的相对重要性分数)。提前感谢！

浏览 10提问于2022-01-18得票数 0

1回答

具有数值的ID3决策树

、、

我正在寻找一个ID3决策树实现，它以一个验证和测试文件作为输入，并返回预测。我找到了，但是我无法将它们调整为数值，例如。您知道从控制台或用Python编写的任何ID3树实现吗？或者任何关于如何在数值中使用的建议都是很棒的。

浏览 2提问于2010-02-18得票数 5

1回答

如何告诉一个提升模型，两个特征是相关的，不应该被解释为独立的？

、、、

我使用XGBoost作为一个机器学习模型，它可以从表格数据中学习。 XGBoost在决策树上采用boosting方法。当我查看决策树的决策逻辑时，我注意到该逻辑一次基于一个特征。在现实生活中，某些多重特征是相互关联的。目前，当我将数据提供给模型时，我只是简单地将所有的功能提供给它，而没有告诉模型某些特性之间的关系。让我来描述一个假设的例子，以便更清楚。假设我有两个特征-性别和头发的长度。在这个假设的问题上，我从我的领域知识中知道，如果性别是女性，那么头发的长度决定了结果。如果性别是男性，那么头发的长度就无关紧要了。我如何告诉机器学习模型这一宝贵的信息，以使模型能够更好地学习？我在pyth

浏览 0提问于2019-10-02得票数 0

回答已采纳

1回答

Python中的简单决策树(嵌套if-语句)？

、、

我想用JSON定义一个嵌套的if-statement，并使用Python进行测试。我正在考虑一个简单的带有嵌套分支的决策树，并进行递归测试。伪码 # is_valid = (a == b OR a == a) AND c == c # True tree = { branches: [ { value1: 'a', operator: '==', value2: 'b', child_connector: 'or&#

浏览 0提问于2019-12-15得票数 2

回答已采纳

1回答

在Python中使用Weka生成的决策树

、、

我使用Weka-GUI生成了一个决策树，并尝试在我的Python代码中使用生成的决策树。 Python中是否有加载DT模型并使用它的选项，或者我是否必须使用weka包装器在Python中训练决策树？

浏览 2提问于2021-01-26得票数 0

3回答

决策树实现(ID3或C4.5)

、、、

我想用PHP实现一个决策树(机器学习)算法。我在谷歌上到处搜索，在PHP中什么也找不到。有没有人知道PHP中实现决策树的教程或函数？

浏览 0提问于2011-11-18得票数 4

4回答

在决策树中处理异常值和空值

、、、

离群值:据我所知，决策树对异常值是稳健的。有人能证实我的假设是否正确吗？(如果我的特征从0到9不等，但存在一个值为10000的异常值，那该怎么办？)它是否为这个离群点样本创建了一个单独的叶子，还是会与其他树的叶子合并？空值:在使用决策树建立模型之前，我们需要替换空值吗?还是由决策树技术自动处理？谢谢。

浏览 0提问于2018-05-09得票数 6

回答已采纳

1回答

用make_classification在Python中进行数据仿真

、、、

关于Python中的数据模拟，我有一个问题。本文对不平衡数据的分类进行了研究，并对不同方法在模拟数据上的有效性进行了测试。我在各种文章和书籍中看到，make_classification函数用于生成数据。然后从正态分布产生数据，因此数据是连续的，而不是离散的。这类数据对分类(SVM，决策树)研究是否正确？

浏览 0提问于2021-05-03得票数 0

1回答

利用可视化垂直线对数据点进行分类

、、、

我目前正在做硕士论文，在毕业后，我的导师提出了一些问题。我已经回答了大部分的问题，但只剩下一个问题，我不知道如何回答。我的硕士论文是将给定的医学数据分类为癌症或免疫，预处理后的数据点的可视化看起来如下所示， 📷 现在，我已经使用支持向量机与核、决策树和随机森林算法对数据点进行分类，它们获得了很好的精度和F1评分，但我的主管提出了以下问题我几乎可以通过绘制三条垂直线来完美地分类这些数据。相反，提供了非常复杂的决策树。应该讨论为什么绘制这三条垂直线是不合适的，或者如果是，为什么算法找不到它们。根据决策树分类器的质量应与我提出的简单方法进行比较。。所以你能不能分享一下你对这个问题的了解并帮助

浏览 0提问于2022-10-30得票数 1

1回答

决策树完整性与非分类数据

、、

我编写了一个程序，在ID3算法的基础上，使用信息增益函数(Shanon熵)训练决策树，用于特征选择(split)。一旦我训练了一棵决策树，我就对它进行了分类，我意识到有些数据实例不能被分类：树上没有路径来对实例进行分类。一个示例(这是一个示例，但我遇到了一个更大、更复杂的数据集的相同问题)： f1和f2是预测变量(特性)，y是范畴变量，值范围为： f1：a1；a2；a3 f2：b1；b2；b3 y：y1；y2；y3 培训数据： ("a1“、"b1”、"y1")；("a1“、"b2”、"y2"

浏览 0提问于2016-03-16得票数 1

回答已采纳

1回答

决策树分割策略

、、、、

我有一个包含4个分类特征(胆固醇、收缩压、舒张压和吸烟率)的数据集。我使用决策树分类器来找出中风的概率。我正在尝试验证我对Python Sklearn所做的拆分过程的理解。由于它是二叉树，因此有三种可能的方法来拆分第一个特征，即将类别{0和1分组到一个叶子，将2分组到另一个叶子}，或者{0和2，1}，或者{0，1和2}。我所知道的(请在这里纠正我)是所选择的分割是具有最小信息增益的分割(基尼杂质)。我已经计算了三种分组方案中每一种情况的信息增益： {0 + 1 , 2} --> 0.17 {0 + 2 , 1} --> 0.18 {1 + 2 , 0} --> 0.

浏览 3提问于2019-12-24得票数 0

1回答

决策树与维数的诅咒

、、

由于决策树算法一次分割训练数据集，那么它又是如何遭受维数诅咒的呢？

浏览 0提问于2018-05-18得票数 1

1回答

二元分类问题中最主要因素的推导

、、、、

我有一个二进制分类问题，大约有30个特征和一个最终通过/失败标签。我首先训练了一个分类器，以便能够预测新的实例将通过或失败，但现在我想得到一个更深入的理解。如何根据这些项目的特性对这些项目通过或失败的原因进行一些分析？理想情况下，我希望能够显示出与每个因素相关的权重的最大贡献因素。更复杂的是，我的特征不一定是统计上相互独立的。我应该研究什么样的方法，哪些关键字会指向正确的方向？的一些初步想法：使用决策树分类器(ID3或CART)，并查看树的顶部以寻找顶层因素。我不确定这种方法会有多强大，我也不清楚如何分配每个因素的重要性(一个人只会得到一个有序的列表)。

浏览 3提问于2019-01-30得票数 0

回答已采纳

1回答

有没有可能在python中提取经过训练的机器学习模型的公式？

、、、

在我的项目中，我应该使用分类器来根据6个输入值来预测8个类中的一个。我必须比较一个只运行C++代码的设备上的所有监督学习分类器。所以我使用python来教/拟合机器学习模型，但是我需要为每个分类器在C++上运行它找出最终的公式。有什么办法从模型中得到这些公式/代码吗？使用的机器学习算法：支持向量机朴素贝叶斯线性回归线性判别分析决策树 K-最近邻算法 Logistic回归神经网络梯度增强算法随机森林。

浏览 2提问于2018-05-27得票数 3