在scikit-learn中实现c4.5算法是可能的吗？_在abap OO中实现REJECT是可能的吗？_在CSS calc() - is中实现模数行为是可能的吗？ - 腾讯云开发者社区

c#、java、.net、algorithm、machine-learning

我正在寻找一个C#转换或实现的的java代码虽然我可以自己转换它，但我希望节省一些时间，并找到一个干净的注释实现。

浏览 0提问于2012-06-21得票数 2

回答已采纳

3回答

决策树实现(ID3或C4.5)

php、machine-learning、neural-network、decision-tree

我想用PHP实现一个决策树(机器学习)算法。我在谷歌上到处搜索，在PHP中什么也找不到。有没有人知道PHP中实现决策树的教程或函数？

浏览 0提问于2011-11-18得票数 4

2回答

Weka如何在J48和其他分类器中计算输出预测？

weka

我在Weka语言中使用了J48分类器的输出预测，并得到了预测的结果(概率)。由于我需要在我的研究中使用这些预测数，我需要知道weka是如何计算这些数字的？公式是什么？是为每个分类器指定的吗？

浏览 2提问于2015-11-27得票数 0

2回答

在spark决策树中使用什么算法(是ID3、C4.5还是CART)

apache-spark、tree

我有一个关于MLlib中决策树的问题。Spark中使用的是什么算法？是ID3，C4.5还是CART？

浏览 5提问于2016-12-07得票数 8

3回答

如何在scikit learn中设置ID3算法？

python、tree、machine-learning、scikit-learn

有一个用于各种类型的树(ID3，CART，C4.5)，但我不明白我应该传递什么参数来模拟传统的行为？

浏览 2提问于2015-08-29得票数 5

1回答

在scikit-learn中实现c4.5算法是可能的吗？

python、pandas、scikit-learn、cart-analysis、c4.5

我在文档中读到sklearn对树使用CART算法。是否有特定的属性需要更改以使其变得类似于c4.5实现？

浏览 79提问于2019-03-07得票数 1

1回答

如何控制滑雪板DT分类器中每个分叉的分支数？

python、classification、scikit-learn、decision-trees

我正在尝试编码一个两类的DT分类问题，我以前使用过SAS。但想在斯克勒夫做这事。目标变量是两个类别的分类变量。但是有几个连续的自变量。在SAS中，我可以为每个拆分指定“最大分支数”。因此，当它被设置为4时，一些叶将分裂为2，而另一些将分裂为4(特别是对于连续变量)。我找不到与滑雪板等效的参数。看了“最大叶节点”。但这控制了整个树的“叶”节点的总数。我相信你们中的一些人可能也遇到过同样的情况，并且已经找到了解决办法。请帮助/分享。我会非常感激的。

浏览 0提问于2018-05-05得票数 1

2回答

导出Weka模型以在C或C++中使用

java、c++、machine-learning、weka、classification

我在使用Weka进行数据探索和确定最适合我的问题的分类算法方面取得了很大的成功。现在我有了一个可以工作的经过训练的模型，我想把它集成到我的C++程序的其余部分中。不幸的是，这似乎是一项困难的任务:只有Weka具有将分类器导出为Java对象文件的本机支持。有没有人找到了以有用的格式导出经过Weka训练的模型参数的方法？如果有一个实用程序可以从J48决策树生成C/C++代码，我会特别感兴趣。

浏览 2提问于2011-05-15得票数 8

回答已采纳

1回答

数值属性和类的Java决策树

java、machine-learning、decision-tree

我正在寻找一个用于决策树的java库，它可以接受数字属性和类/等级。Weka的J48处理离散属性，但不接受数字属性。谢谢

浏览 2提问于2010-09-11得票数 2

回答已采纳

1回答

在weka中手动控制决策树

data-mining、weka、decision-tree

Month是我的数据集中的一个属性，我认为它非常重要，我希望首先在j48中拆分它。但默认情况下，weka会先选择其他属性进行拆分。有什么方法可以控制这种情况吗？谢谢!

浏览 0提问于2013-06-04得票数 2

回答已采纳

1回答

数字的OCR。用Hu不变矩进行分类

java、algorithm、opencv、ocr、classification

我正在用几个数字做图片的OCR。我隔离数字，计算每个数字的7 hu不变矩，并存储数据。因此，当我有足够的数据为每一个数字，我想匹配一个传入数字与我已经拥有的数据。我首先计算数字的7个hu矩，然后查看所有的数据，并检查其他hu矩向量是否与我新到达的数字相匹配。对于数字6，7 hu矩可能如下所示： 0.0015019597635929924 8.216737738246056E-7 2.0375639403591246E-10 7.83546684255912E-11 7.317864741055554E-21 3.429093590309372E-14 -6.668347984552349E

浏览 6提问于2014-03-17得票数 3

1回答

规则集优化算法

classification、optimization、genetic-algorithms

我有手写分类器(有很多)。它被实现为规则集的集合IIF - THEN。我想优化错误的%。有一些分类器的False Positive和False Negative结果占很大的比例。在我对这个问题的研究中，我发现RIPPER alghorytm女巫，似乎是为解决这类问题而设计的。此外，也有一些可以帮助Multi Naive Bias的方法。据我所知，在EA中通常有Global Optimization步骤，C通常/有时通过RIPPER实现。所以，简单地说。我已经手动生成了rule-set女巫，我现在已经进行了优化，例如使用RIPPER。是真的吗？你能引用一些文献吗？

浏览 0提问于2016-11-06得票数 1

2回答

在随机森林中使用什么样的决策树？

machine-learning、random-forest、decision-trees

阅读一些文档(对于示例)，我知道有很多类型的决策树(Cart、ID3等等)。我还知道，随机森林是一种使用一组决策树的粒子算法。我的问题是:在随机森林中，使用什么样的决策树？(cart，id3，.)

浏览 0提问于2022-03-21得票数 0

回答已采纳

1回答

连续目标变量的决策树

decision-tree

我正在尝试构建一个决策树，其中我在r.which决策树中混合了自变量和连续因变量，我可以应用吗？我不想使用购物车，因为我想要2个以上的分割。

浏览 7提问于2015-08-20得票数 0

1回答

参考url地址学习数据挖掘算法C5.0。

machine-learning、classification

有没有人知道如何计算C5.0数据挖掘算法，可能是一个地址引用url？

浏览 0提问于2013-04-02得票数 1

5回答

scikit学习的不平衡

python、scikit-learn

我在Python程序中使用scikit-learn来执行一些机器学习操作。问题是我的数据集存在严重的不平衡问题。有没有人熟悉scikit-learn或python中不平衡的解决方案？在Java中有SMOTE机制。在python中有类似的东西吗？

浏览 1提问于2013-02-25得票数 40

1回答

对大量分类特征进行编码的最佳方式是什么？

python、machine-learning、scikit-learn、weka、categorical-data

我正在尝试制作一个小型的数据科学工具(有点像WEKA的迷你版)。现在，我有了这些具有大量特征(70-100+)的数据集，它们大多是分类的。我正在使用Python sklearn进行机器学习逻辑，我需要根据我得到的sklearn错误将这些类别转换为数字值。考虑到这一点，一次热编码不是一个选择，因为它会放大太多的维度。我已经研究了其他可能的方法，比如频率编码，标签编码等，但我不确定在我的情况下应该选择什么。另外，有没有人知道WEKA实际上是如何处理这些的？我在WEKA中输入我的数据集，它们工作得很好，它们给了我很好的结果！任何帮助都将不胜感激。谢谢!

浏览 24提问于2021-04-21得票数 0

1回答

c4.5算法缺失值

algorithm、decision-tree、c4.5

C4.5算法如何处理连续间隔上的缺失值和属性值？另外，决策树是如何被剪除的？有谁能用一个例子来解释一下。

浏览 2提问于2017-02-14得票数 0

1回答

根据数据创建决策树

algorithm、tree、decision-tree

我试图从数据中创建决策树。我用树来猜动物游戏之类的应用。用户用“是”/“否”回答问题，程序猜测答案。这个节目是用来做作业的。我不知道如何从数据中创建决策树。我无法知道什么将是根节点。每次都会有不同的数据。我不能用手做。我的数据如下： Animal1: property1, property3, property5 Animal2: property2, property3, property5, property6 Animal3: property1, property6 etc. 我搜索了堆栈溢出，找到了ID3和C4.5算法。但我不知道我是否应该使用它们。有人能指点我，我应该用什么算法

浏览 4提问于2015-06-23得票数 2

回答已采纳

1回答

决策树在助推中的实现

algorithm、decision-tree、adaboost、boosting

我正在实现AdaBoost(增强)，它将使用CART和C4.5。我读过关于AdaBoost的文章，但是我找不到关于如何将AdaBoost与决策树连接起来的很好的解释。假设我有有n个例子的数据集D。我把D到TR训练的例子和TE测试的例子分开。假设TR.count = m，所以我设定的权重应该是1/m，然后我用TR构建树，用TR测试它得到错误的例子，用TE测试来计算错误。然后我改变重量，现在我将如何获得下一套训练？我应该使用什么样的抽样(有或没有替换)？我知道新的培训集应该更多地集中在错误分类的样本上，但是我如何实现这一点呢？那么，CART或C4.5如何知道他们应该把注意力集中在权重更大的例子上呢

浏览 1提问于2016-12-16得票数 0

回答已采纳

4回答

使用哪种数据处理工具？

comparison、weka、data-mining、rapidminer

有人能解释一下最著名的数据挖掘开放源码工具的主要优缺点吗？在我读到的所有地方，RapidMiner，Weka，Orange，KNIME都是最好的。有人能在一个小的子弹列表中快速地进行技术比较吗。我的需要如下：它应该支持分类算法(朴素贝叶斯，支持向量机，C4.5，kNN)。它应该很容易在Java中实现。它应该有可以理解的文件。它应该有参考生产项目或用例工作在。一些额外的基准比较，如果可能的话。谢谢!

浏览 7提问于2016-07-25得票数 9

回答已采纳

1回答

不同决策树算法的复杂度和性能比较

performance、machine-learning、complexity-theory、classification、decision-tree

我正在研究数据挖掘，更准确地说，是决策树。我想知道是否有多个算法来构建一个决策树(还是仅仅一个？)，哪一个更好，基于如下标准性能复杂性决策失误还有更多。

浏览 4提问于2012-04-02得票数 45

回答已采纳

1回答

有决策树的Adaboost (自适应增强)方法的例子是什么？

machine-learning、classification、decision-tree、adaboost

有什么好的教程可以解释如何在为样本训练集构建决策树的连续迭代过程中对样本进行加权？我想明确地说，在构建第一个决策树之后，如何分配权重。决策树是使用信息增益作为锚来设计的，我想知道这是如何由于先前迭代中的错误分类而受到影响的。任何好的教程/例子都是非常感谢的。

浏览 2提问于2014-09-21得票数 3

回答已采纳

3回答

如何在weka库中添加一种新的weka分类算法

machine-learning、weka、decision-tree

我想使用一些由weka分类算法(如c4.5，ID3)，但我不知道如何添加到weka！在weka上有吗？如果这些算法不可用，我如何添加它们？

浏览 7提问于2013-04-23得票数 0

1回答

决策树算法名称"c4.5“的含义是什么？

machine-learning

我正在学习机器学习。在这个主题中，我看到了一个决策树名称"c4.5“，但我不知道"c4.5”代表什么。有没有人帮帮我？我搜索了很多次，但我仍然没有答案:D

浏览 1提问于2016-09-14得票数 3

1回答

提取图像中的某些区域进行进一步分类

image、image-processing、machine-learning、classification

我有许多图像(以及原始数据源)，它们展示了特定的特征。它们中的一些具有不同的垂直/水平区域，如下图所示，或者只是非常特定区域中的点的“斑点”/concentrations。这些图像与特定的标签/类别相关联，例如，标签"A“在y= 700和y= 150处表现出非常有特征性的水平线(如图中标记的那些)。属于类"B“的图像在x= 200、260和370处显示垂直线，在类”C“处显示垂直线，依此类推。除了这些已知/标记的类之外，我还有一堆图像，它们展示了这些功能之一或它们的组合。我的目标是使用这些已知的类来训练一些ML算法，以便进一步使用它来对那些没有任何标签的图像进行

浏览 1提问于2012-02-11得票数 0

1回答

具有数值的ID3决策树

python、id3、decision-tree

我正在寻找一个ID3决策树实现，它以一个验证和测试文件作为输入，并返回预测。我找到了，但是我无法将它们调整为数值，例如。您知道从控制台或用Python编写的任何ID3树实现吗？或者任何关于如何在数值中使用的建议都是很棒的。

浏览 2提问于2010-02-18得票数 5

1回答

决策树- C4.5 vs CART规则集

decision-trees

当我阅读关于决策树的scikit--学习用户手册时，他们提到 CART (分类和回归树)与C4.5非常相似，但它的不同之处在于它支持数值目标变量(回归)，不计算规则集。CART使用特征和阈值构造二叉树，在每个节点上获得最大的信息增益。我不明白C4.5算法在哪里计算规则集(我甚至不知道规则集是什么意思)。它与购物车本质上是一样的，只不过它使用吉尼指数而不是交叉熵。请有人详细解释哪些规则集是什么以及它们在C4.5中是如何使用的？

浏览 0提问于2017-09-23得票数 6

1回答

Python中的半监督高斯混合模型聚类

python、matlab、scikit-learn、scikit-image

我有图像，我正在分割使用高斯混合模型从scikit-learn。有些图片是标记的，所以我有一个良好的事先信息，我想要使用。我想要运行一个混合模型的半监督培训，通过提供一些集群作业提前。从Matlab文档中，我可以看到Matlab允许设置初始值。是否有任何python库，特别是scikit-learn方法允许这样做？

浏览 0提问于2016-05-20得票数 3

回答已采纳

1回答

关于SVM参数设置的查询

numpy、machine-learning、scipy、scikit-learn、svm

对于我的实验，我想通过调整树的贡献权重和树的成本因子来构建一个SVM树核模型。那么，我如何在scikit-learn中操作和查找这些参数，因为我在1.4support Vector Machines scikit-learn文档中找不到任何名为成本因子的参数。任何建议或答案都会很有帮助。谢谢

浏览 0提问于2015-10-27得票数 1

2回答

需要帮助选择数据处理/神经网络API

java、neural-network、data-mining

我正计划为我用Java开发的电子商务平台构建一个功能，以像Amazon一样展示相关产品。有几个与产品相关的不同指标，我想探讨一下。购买历史记录(同时购买) 按家庭/类型分类(类似产品分类) 有意关联(提高结果；“买这个！”) 虽然我可能能够开发我自己的数据处理库，但它并不是很便携，而且我敢说它也不是很好。有几个包可以用来做这类事情，但我觉得我无法评估哪个包或解决方案最适合我。如有任何关于轶事或个人经验的意见，将不胜感激。注意:我把它标记为神经网络，因为我在一次蟒蛇演讲中使用了类似神经网络的数据，我不认为神经网络是这项工作的最佳选择。

浏览 4提问于2010-09-03得票数 0

回答已采纳

1回答

设置BernoulliRBM的Gibbs步骤数

python、scikit-learn

我希望在scikit-learn中为受限的Boltzmann机器使用scikit-learn实现，但我在任何地方都找不到方法或参数来设置用于PCD采样的Gibbs步骤k的数目。我应该假设k=1不能修改吗？

浏览 3提问于2014-04-22得票数 1

回答已采纳

1回答

scikit学习平均感知器分类器

python-2.7、machine-learning、scikit-learn、classification、perceptron

我是一个机器学习的新学习者，我想做一个只有几个属性的两类分类。通过在网上的研究，我了解到两类平均感知器算法对于线性模型下的两类分类是很好的。然而，我一直在阅读Scikit-learn的文档，我有点困惑是否Scikit-learn提供了一个平均感知器算法。我想知道sklearn.linear_model.Perceptron类是否可以通过正确设置参数来实现为两类平均感知器算法。我非常感谢你的帮助。

浏览 6提问于2017-12-06得票数 2

回答已采纳

1回答

有人能解释一下ID3和CART算法的区别吗？

r、decision-tree、rpart、cart-analysis

我必须用R软件和rpart软件包创建决策树。本文首先定义了ID3算法，然后实现了各种决策树。我发现rpart包与ID3算法不兼容。它使用了CART算法。我想了解两者的差异，也许可以解释我的论文中的不同之处，但我没有找到任何将两者进行比较的文献。你能帮帮我吗?你知不知道哪一篇论文两者比较过，或者你能向我解释一下两者的区别吗？

浏览 4提问于2013-11-20得票数 5

1回答

基于sklearn的决策树算法的类型

scikit-learn

有不同类型的决策树算法。ID3，CART，C4.5。我需要帮助来识别哪种算法是由sklearn在Python中实现的？

浏览 2提问于2018-03-06得票数 1

回答已采纳

1回答

WEKA和Scikit-Learn多层感知器给出不同的结果

python、scikit-learn、weka

所有人我目前正在使用多层感知器进行一项研究。我之前使用的是WEKA，但由于各种原因，我已经迁移到了python中的scikit-learn。我试图在WEKA到scikit-learn中复制我的预测结果，所以我用完全相同的学习率、动量、隐藏层等制作了一个精确的感知器，然而，预测结果在这两个平台上是不同的。关于这件事，有人能给我一些解释吗？我注意到的唯一一件事是scikit learn使用lbfgs、adam和sgd来优化其连接权重，而WEKA使用反向传播。但这可能是唯一的原因吗？还是有其他原因呢？诚挚的问候

浏览 1提问于2018-09-04得票数 1

1回答

增加J48树的大小

machine-learning、classification、weka

在树大小对我不重要的情况下，我正在进行数据挖掘测试。有没有人知道是否有办法在WEKA中增加J48树的大小，这样我就能达到更高的精度？或者我应该使用其他的树算法？

浏览 0提问于2013-12-12得票数 1

回答已采纳

3回答

scikit-learn和tensorflow有什么不同？可以一起使用吗？

python、tensorflow、machine-learning、scikit-learn

这个问题我得不到令人满意的答案。据我所知，TensorFlow是一个用于数值计算的库，通常用于深度学习应用程序，而Scikit-learn是一个通用机器学习框架。但是，它们之间的确切区别是什么? TensorFlow的目的和功能是什么？我可以一起使用它们吗?这有什么意义吗？

浏览 67提问于2020-04-15得票数 40

回答已采纳

1回答

scikit-learn中有没有任何类型的子空间聚类包

python、machine-learning、scikit-learn、cluster-analysis

scikit-learn中有没有任何类型的子空间聚类包。

浏览 1提问于2015-11-03得票数 6

2回答

pyspark流媒体是否适合机器学习/科学计算？

python、numpy、pyspark、spark-streaming

我是spark的新手，不得不写一个流媒体应用程序，它必须执行一些任务，比如快速傅立叶变换和一些机器学习的东西，比如使用svms进行分类/回归等。我想在pyspark中做到这一点，因为python有各种各样的模块，比如numpy，scikit-learn等等。我的问题是，在流媒体应用程序中可以做这样的事情吗？据我所知，spark使用dstream。这些流是否可以转换为numpy数组之类的内容，或者可以作为python函数的输入的类似内容？ Thx

浏览 0提问于2017-09-25得票数 0

2回答

在MATLAB和scikit之间，对于决策树的学习是不同的。

python、scikit-learn、decision-trees、accuracy、matlab

是否有可能通过使用python代码改变matlab和jupyter笔记本中相同数据集的准确性？对于相同的数据集，首先在matlab中应用，决策树法的准确率为96%，然后使用python代码将相同的数据集应用到jupyter笔记本中，通过k次交叉验证，C4.5 (决策树)的准确率为53%。我不明白对于相同的数据集和相同的方法获得不同的准确性的问题在哪里。我在python代码中的过程如下所示： import pandas as pd import numpy as np from sklearn import tree from sklearn.model_selection import

浏览 0提问于2019-01-23得票数 2

回答已采纳

1回答

随机森林与log_loss度量？

random-forest、lightgbm

轻型gbm具有与log_loss相结合的二值或多分类度量。随机森林也有log_loss的损失函数吗？

浏览 0提问于2020-02-11得票数 1

1回答

scikit-学习kmeans自定义距离

python、scikit-learn

我希望使用kmeans算法对一些数据进行聚类，但我希望使用自定义的距离函数。有什么方法可以改变scikit-learn使用的距离函数吗？我也会满足于一个不同的框架/模块，它可以交换距离函数，并可以并行计算kmeans (我想加快计算速度，这是scikit-learn的一个很好的特性)。有什么建议吗？

浏览 0提问于2015-06-30得票数 7

2回答

集成scikit-learn与pyspark

apache-spark、scikit-learn、pyspark

我正在探索pyspark和整合scikit-learn与pyspark的可能性。我想使用scikit-learn在每个分区上训练一个模型。这意味着，当我的RDD被定义并分布在不同的工作节点上时，我想使用scikit-learn并在每个工作节点上存在的每个分区上训练一个模型(假设是一个简单的k- means )。由于scikit-learn算法需要一个Pandas数据帧，所以我最初的想法是为每个分区调用toPandas，然后训练我的模型。但是，toPandas函数将DataFrame收集到驱动程序中，这不是我想要的。有没有其他方法可以达到这个目标呢？

浏览 4提问于2016-07-04得票数 4

2回答

在scikit-learn中将GMM拟合到3D直方图

scikit-learn、mixture-model

scikit-learn中的混合模型代码适用于单个数据点的列表，但如果您有直方图呢？也就是说，我对每个体素都有一个密度值，并且我希望混合模型近似它。这个是可能的吗？我认为一种解决方案是从这个直方图中抽样值，但这不是必要的。

浏览 2提问于2013-10-24得票数 1

1回答

学习随机森林并与连续特征相匹配

random-forest

有人知道python如何学习随机森林实现如何在拟合过程中处理连续变量吗？我很想知道它是否进行了任何类型的绑定(如果是的话，它是如何进行绑定的)，还是连续变量只是作为一个范畴变量来处理呢？我希望这不是latter...thanks！而且，如果有人知道的话，我愿意使用一些R实现。

浏览 0提问于2016-10-19得票数 2

回答已采纳

3回答

C5算法的实现？

classification、pattern-recognition

你知道我在哪里可以找到这个算法的一些信息，来研究它吗？是否已经有其实现的示例，或者只有知道它的实现？

浏览 7提问于2011-02-23得票数 7

回答已采纳

1回答

Python中有真正的C4.5实现吗？(处理缺失值)

python、pandas、decision-trees

据我理解，与ID3相比，C4.5提供了4个改进：处理训练数据和“测试”数据中的缺失值，处理连续数据处理属性上的成本。修剪来源但是，我发现的所有决策树python模块，即使是所谓的C4.5，都不能处理缺少的值。你知道有一个图书馆能处理它们吗？如果它能与Pandas DataFrames“开箱即用”的话，那就太好了.

浏览 0提问于2020-01-05得票数 6

1回答

Scikit-learn的AdaBoost实现

python、scikit-learn、decision-trees、implementation、adaboost

我正在尝试在纯AdaBoost中实现Python算法(如果需要的话使用NumPy )。我循环所有弱分类器(在本例中，是决策桩)，然后是总体特征，然后遍历该特性的所有可能值，以查看哪一个更好地划分了数据集。这是我的密码： for _ in range(self.n_classifiers): classifier = BaseClassifier() min_error = np.inf # greedy search to find the best threshold and feature for feature_i in range(n_feature

浏览 0提问于2021-09-15得票数 1

回答已采纳

4回答