为什么随机森林或决策树不能提供100%的精度？以及如何处理中间的巨大噪音？

随机森林和决策树不能提供100%的精度是因为它们都是基于一定的假设和算法设计的，存在一定的局限性和不确定性。具体原因如下：

随机性：随机森林是由多个决策树组成的集成模型，每个决策树都是基于随机选择的特征子集进行训练。这种随机性使得随机森林具有较高的鲁棒性和泛化能力，但也可能导致一些特定情况下的误判或错误分类。
特征选择：决策树和随机森林的特征选择过程是基于信息增益、基尼系数等指标进行的，这些指标可能无法完全捕捉到数据中的复杂关系和特征之间的相互作用。因此，在某些情况下，决策树和随机森林可能无法准确地捕捉到数据的真实模式。
过拟合：决策树和随机森林在处理复杂数据时容易出现过拟合的问题。过拟合指的是模型过于复杂，过度拟合了训练数据，导致在新数据上的泛化能力较差。即使使用了随机森林的集成学习方法，仍然可能存在某些决策树过于复杂或过拟合的情况。

针对中间的巨大噪音，可以考虑以下处理方法：

数据清洗：通过对数据进行清洗和预处理，去除异常值、噪音和不一致的数据，以提高数据的质量和准确性。
特征选择和降维：通过选择最相关的特征或使用降维算法，减少噪音对模型的影响。例如，可以使用主成分分析（PCA）等方法进行特征选择和降维。
模型调参：调整模型的参数和超参数，以提高模型的鲁棒性和泛化能力。例如，可以调整决策树的最大深度、叶子节点的最小样本数等参数，以减少过拟合的风险。
集成学习：使用集成学习方法，如随机森林、梯度提升树等，通过组合多个模型的预测结果来减少噪音的影响，提高整体的准确性和鲁棒性。
数据增强：通过增加训练数据的多样性，如旋转、平移、缩放等数据增强技术，可以减少噪音对模型的影响，提高模型的鲁棒性。

腾讯云相关产品和产品介绍链接地址：

数据清洗和预处理：腾讯云数据清洗服务（链接地址：https://cloud.tencent.com/product/dqc）
特征选择和降维：腾讯云机器学习特征工程（链接地址：https://cloud.tencent.com/product/fe）
模型调参：腾讯云机器学习调参优化（链接地址：https://cloud.tencent.com/product/tco）
集成学习：腾讯云机器学习集成学习（链接地址：https://cloud.tencent.com/product/eml）
数据增强：腾讯云机器学习数据增强（链接地址：https://cloud.tencent.com/product/daug）

页面内容是否对你有帮助？

有帮助

没帮助

为什么在某些情况下具有n_estimators =1的随机林的性能比决策树差

、、

为什么在某些情况下，具有n_estimators =1的随机林执行的性能比决策树差，即使在将引导设置为false之后？尝试使用不同的机器学习模型来预测信用卡的违约率，我尝试了随机森林和决策树，但随机森林的表现似乎较差，然后尝试了只有一棵树的随机森林，因此它应该与决策树相同，但性能仍然较差。

浏览 9提问于2022-11-03得票数 0

1回答

为什么随机森林能够“比线性回归更好地处理缺失的值和基数”？

、、、

我读过一个比较线性回归和随机森林回归的问题。我当时应该在两者之间作出选择，并解决一个问题。问题中提到，“随机森林也能比线性回归更好地处理缺失值和基数”。为什么会这样呢？这是怎么发生的？

浏览 0提问于2022-06-17得票数 1

2回答

决策树与特征选择

、

在应用特征选择之前和之后，我尝试对不同机器学习算法的性能进行实验。利用sklearn提供的函数(SelectFromModel)，对SVM、随机森林、KNN、线性回归以及决策树作为特征选择方法进行了测试。除决策树算法外，所有算法在应用特征选择后都有了明显的改进。我想找个解释为什么会发生这种事？这是否意味着决策树需要大量的特性才能生成一个好的模型？

浏览 0提问于2020-04-19得票数 3

1回答

我使用以下代码将决策树分类器和随机森林分类器应用于我的数据： def decision_tree(train_X, train_Y, test_X, test_Y): clf = tree.DecisionTreeClassifier() clf.fit(train_X, train_Y) return clf.score(test_X, test_Y) def random_forest(train_X, train_Y, test_X, test_Y): clf = RandomForestClassifier(n_estimators=1)

浏览 3提问于2018-01-13得票数 19

回答已采纳

2回答

以连续变量的时间序列为特征的事件预测

、

我们有这样的感觉:设备的行为是连续变量(风扇的速度，温度，电压，.)对发生的罕见事件(组件故障)有影响。我现在必须建立一个预测模型来证明这种影响。这些连续的特征作为时间序列给出，事件是准时的。我建立了一个基于这些变量的描述性统计信息的模型(请参阅这个问题)，其中包含决策树、随机森林、adaboost和集群，但它不起作用。我仍然会通过平衡类来改进，但我相信这不是最好的方法。我很确定对于这样的预测有更好的算法(这是很常见的问题)，但我什么也找不到。你有主意吗？非常感谢 PS:我正在使用Python和cython

浏览 0提问于2015-11-10得票数 3

回答已采纳

2回答

在随机森林中使用什么样的决策树？

、、

阅读一些文档(对于示例)，我知道有很多类型的决策树(Cart、ID3等等)。我还知道，随机森林是一种使用一组决策树的粒子算法。我的问题是:在随机森林中，使用什么样的决策树？(cart，id3，.)

浏览 0提问于2022-03-21得票数 0

回答已采纳

3回答

为什么我们需要在随机森林中进行行采样？

、、

在随机森林中，我们的估计量是决策树，我们在估计器中进行列(特征)抽样，而不替换估计量，并在估计器之间进行替换。这是非常好的，因为我们试图减少高方差的个别决策树。但是，行抽样有什么必要呢？通常数据越多，对模型的学习越好，即使我没有任何计算资源限制，为什么我们必须在估计器中对随机森林分类器进行行抽样？

浏览 0提问于2019-03-25得票数 3

6回答

使用Scikit-Learn在Python中绘制随机森林的树

、、、、

我想画一棵随机森林的决策树。因此，我创建了以下代码： clf = RandomForestClassifier(n_estimators=100) import pydotplus import six from sklearn import tree dotfile = six.StringIO() i_tree = 0 for tree_in_forest in clf.estimators_: if (i_tree <1): tree.export_graphviz(tree_in_forest, out_file=dotfile) pydotplu

浏览 0提问于2016-10-20得票数 30

2回答

如何在python scikit中使用虚拟变量来表示分类数据-学习随机森林

、、、

我正在为scikit-learn的随机森林分类器生成特征向量。特征向量代表了9个蛋白质氨基酸残基的名称。有20个可能的残基名称。因此，我使用20个伪变量来表示一个残基名称，对于9个残基，我有180个伪变量。例如，如果滑动窗口中的9个残基是: ARNDCQEGH (每个字母代表一个蛋白质残基的名称)，我的特征向量将是： "True\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFalse\tFa

浏览 1提问于2013-04-05得票数 4

回答已采纳

3回答

为什么随机森林是决策树的一种改进？

、

假设我们有一个二进制分类问题，我们在数据集上构建了一个决策树。假设我们有5个特征，那么决策树将在第一步中选择最优的特征，并在这个特征上选择最佳的阈值来分割数据集，然后继续使树更深。best的定义是分类误差最小的。我的问题是:既然决策树在每一步都会选择最佳的特征来分割，那么为什么随机森林(也就是许多决策树)是对决策树的改进？一个决策树不就足够了吗？更新我的意思是:如果你有一个decision tree classifier和一个参数相同的random forest classifier (max_depth，number of children等)，那么decision tree cla

浏览 0提问于2019-05-01得票数 2

1回答

如何在回归树中计算特征重要性？

、、、

在使用决策树算法或随机森林进行分类的情况下，我们使用基尼杂质或信息增益作为衡量标准，以确定首先选择哪个特征来分割父节点/中间节点，但如果我们使用决策树或随机森林进行回归，那么如何计算特征重要性或选择特征？

浏览 62提问于2020-10-22得票数 1

1回答

多个分类算法总是以相同的分数准确地预测。这正常吗？如果没有，我应该怀疑什么？

、

我一直在研究一个多标签分类问题。我正在使用Python机器学习库来实现分类算法。对于交叉验证，我使用重复的K-交叉验证.对支持向量机、Logistic回归、随机森林、决策树、K-邻域和朴素贝叶斯等方法进行了实验，并采用了二值相关、分类链和标签幂集变换等方法。我注意到，对于分类链，支持向量机，Logistic回归，随机森林，和K-邻居总是达到相同的子集准确性和hamming损失。对于标签Powerset，SVM，Logistic回归和随机预测都取得了相同的分数。然而，对于二元关联，所有的分数是不同的。不管我使用的是什么随机种子，或者我运行了多少次交叉验证，它们最终总会得到相同的分数。我想知道这

浏览 0提问于2018-12-03得票数 0

2回答

随机森林技术/模型

、、、、

有人能知道随机森林的不同技术/算法吗？我知道，随机森林本身就是一个算法/模型，但我正在寻找它的另一个版本，就像我们在决策树中一样。基于随机森林的算法列表？谢谢

浏览 0提问于2019-04-24得票数 1

1回答

利用R中的randomForest包将随机森林转化为决策树

、

是否有可能生成一个树木完全相同的决策林？请注意，这是一个实验性的问题。据我所知，与单个决策树相比，随机森林有两个导致“随机性”的参数： ( 1)在决策树的每个节点随机抽样的特征数，以及 2)为创建树而绘制的训练示例的数量。直观地说，如果我将这两个参数设置为它们的最大值，那么我应该避免“随机性”，因此每个创建的树都应该完全相同。因为所有的树都是完全相同的，所以不管森林中有多少树或不同的运行(即不同的种子值)，我都应该取得相同的结果。我使用R中的randomForest库测试了这个想法，我认为前面提到的两个参数分别对应于'mtry‘和'sampsize’。我已经将这些值设置为它

浏览 2提问于2014-04-29得票数 0

1回答

随机森林中树中每个节点的随机变量选择

、、、

在随机森林方法中，对每棵树随机选择一组固定大小的变量(特征)。但是一旦这个集合被冻结，树是否像一个规则的决策树算法？我假设随机森林只不过是产生了一堆经典的“决策树”，并对最终的分类进行投票。但是在许多地方，我读到的任何描述似乎都表明了这一点；对于森林中的给定决策树，即使是在每个节点，我们也会随机地选择变量。是这样吗？这是否意味着，在树的每个节点，我们随机选择m个变量集，为该树是固定的？还是来自培训数据集的全局变量集？然后，从选定的变量集合中，我们启发式地选择了1个变量(例如，任何一个变量最大化信息增益)-这是正确的语句吗？

浏览 0提问于2017-04-08得票数 4

回答已采纳

1回答

如何组合两个决策树对象？

、、、

我已经从随机森林分类器中选择了一些决策树对象(使用估计器)。现在，我想将所选的决策树对象合并为一个对象。有人可以建议我如何合并随机林中选定的决策树对象吗？

浏览 17提问于2019-03-27得票数 0

回答已采纳

1回答

随机林的可能算法

、、、、

我正在研究随机森林，我在寻找随机森林的算法。我已经查找了决策树的算法(如ID3、C4.5、CART)。但是，对于随机森林，有哪些不同的算法？我没有完全理解它的文学。你能说套袋和ExtraTrees就是例子吗？提前感谢

浏览 4提问于2019-11-19得票数 2

回答已采纳

1回答

随机森林的小批量实现吗？

我使用科学-学习的随机森林执行一些分类任务，但是由于数据量太大，内存不足。是否存在随机森林算法(或类似的基于决策树的方法)的小型批处理实现？

浏览 0提问于2015-09-03得票数 3

4回答

为什么决策树会有很大的方差？

、、、、

我听说决策树可能有很大的方差，对于数据集D，将其分成测试/训练，决策树可能会因数据如何被分割而有很大的不同。显然，这为诸如随机森林之类的算法提供了动力。这是正确的吗？为什么决策树具有很高的可变性？编辑：只是一个注释-我没有真正遵循当前的答案，并未能在评论中解决这一问题。

浏览 0提问于2019-03-28得票数 2

回答已采纳

2回答

如何用1000种估计量可视化集合模型(随机森林)

、、、、

我正在处理分类问题，我需要在购买/非购买类别中对用户进行分类。我有大约100 +特性或预测器来预测用户的行为。与决策树相比，我尝试用随机森林和梯度提升来实现更好的预测。当我使用集成技术评估性能参数(如roc_auc、准确性、精确性和回忆性)时，我得到了更好的性能。我还提取了重要的特性，负责我的预测，但我不能完全可视化模型。一些随机森林是如何作为黑匣子工作的，在这里我没有得到每棵树的贡献，每棵树的特征都被考虑到，等等。有什么方法可以让我从随机森林模型中找到更多的信息？

浏览 0提问于2018-10-09得票数 1

1回答

如何将RandomForest折叠成等效的决策树？

、

据我所知，在创建随机森林时，该算法将一组随机生成的决策树捆绑在一起，对它们进行加权，使它们与训练数据相匹配。是否有理由说这个平均森林可以简化成一个简单的决策树？如果是的话-我怎样才能访问和呈现这棵树？我在这里要做的是提取树中的信息，以帮助识别前面的属性、它们的边界值以及在树中的位置。我假设这样一棵树将为人类(或计算机启发式)提供洞察力，即数据集中的哪些属性为确定目标结果提供了最深刻的洞察力。这可能是一个幼稚的问题--如果是这样的话，请耐心点，我对这个问题并不熟悉，我想达到一个我能充分理解它的阶段。

浏览 3提问于2015-06-25得票数 7

回答已采纳

3回答

使用分类树的优缺点

、、

我在做一个项目，并试图验证我的决定。我想知道为什么我会想要使用一个决策树，而不是更强大的算法，如随机森林或梯度增强机，它使用类似的基于树的架构。

浏览 0提问于2020-04-28得票数 0

1回答

使随机林估计器与决策树完全相同

、、、

这样做的目的是让随机森林中的一棵树与决策树完全相等。首先，我们加载所有的库，拟合一个决策树并绘制它。 import numpy as np import pandas as pd import matplotlib.pyplot as plt plt.style.use('ggplot') %matplotlib inline import random from pprint import pprint import pdb random.seed(0) np.random.seed(0) from sklearn.tree import DecisionTreeClass

浏览 0提问于2020-01-22得票数 3

回答已采纳

2回答

如何使决策树规则更容易理解？

、、、、

我想从决策树/随机森林中提取有用的规则，以便开发一种更适用的方法来处理规则和预测。所以我需要一个能让规则更容易理解的应用程序。对我的目的有什么建议(如可视化、验证方法等)？

浏览 4提问于2015-07-09得票数 1

回答已采纳

3回答

对科学工具包学习决策树中random_state的困惑

、、、、

对random_state参数感到困惑，不确定为什么决策树训练需要一些随机性。我的想法是，(1)它与随机森林有关吗？(2)它与分裂训练测试数据集有关吗？如果是这样，为什么不直接使用训练测试拆分方法()？ >>> from sklearn.datasets import load_iris >>> from sklearn.cross_validation import cross_val_score >>> from sklearn.tree import DecisionTreeClassifier >>> clf =

浏览 3提问于2016-08-26得票数 32

回答已采纳

1回答

Apache MLlib随机森林的并行训练

、、、、

我有一个Java应用程序，它在一个包含200K样本的训练集上训练一个MLlib随机森林(org.apache.spark.mllib.tree.RandomForest)。我注意到在训练过程中只使用了一个CPU核心。鉴于随机森林是N个决策树的集合，人们可能会认为这些树可以并行训练，从而利用所有可用的核心。是否有配置选项或API调用或其他任何东西可以启用决策树的并行训练？

浏览 0提问于2016-11-05得票数 0

1回答

随机森林对LightGBM

、、

随机森林对LightGBM 有人能解释一下随机森林和LightGBM之间的详细区别吗？算法是如何在引擎盖下工作的呢？根据我从文件中的理解： LightGBM和RF在树的构建方式上有所不同:顺序和结果的组合方式。结果表明，如果对参数进行仔细调整，GBM的性能要优于射频。随机森林: RFs使用随机数据样本对每棵树进行独立的训练。这种随机性有助于使模型比单个决策树更健壮，并且更不适合于训练数据。我的问题是什么时候人们会在梯度增强机器上使用随机森林？与随机森林相比，使用梯度增强法有什么好处/缺点？

浏览 0提问于2019-11-18得票数 9

回答已采纳

1回答

随机森林算法中的决策树是如何生成的？

、、、、

突然间，我遇到了一个深刻的问题:计算机是如何生成决策树的。例如，考虑使用随机森林算法预测特定花卉种类的问题。一朵花有两个特定的属性(花瓣宽度、花瓣长度)来区分物种。关于花的问题，当使用sclearn的Python决定树()时，计算机如何计算出花瓣的宽度和花瓣的长度来创建树？另外，随机森林算法是否通过蛮力强迫并通过权衡树的每一个变化来创建这些决策树？

浏览 2提问于2022-07-13得票数 0

7回答

我的测试集的准确率是100%，有什么问题吗？

、、、、

当使用决策树algorithm.but训练时，我在测试集上的准确率为100%，在随机森林中只有85%的准确率。我的模型有问题吗?还是决策树最适合提供的数据集。代码： from sklearn.model_selection import train_test_split x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20) #Random Forest from sklearn.ensemble import RandomForestClassifier rf = RandomForestCl

浏览 0提问于2018-07-19得票数 11

回答已采纳

2回答

孤立点检测中的隔离林与鲁棒随机采伐林

、、、、

我正在研究不同的离群点检测方法。我偶然看到sklearn的隔离森林的实现和Amazon的RRCF (健壮的随机剪切森林)的实现。这两种方法都是基于决策树的集成方法，目的是隔离每一个点。隔离步骤越多，问题就越有可能成为一个独立个体，而事实正好相反。然而，即使在查看了算法的原始论文之后，我也无法准确地理解这两种算法之间的区别。他们的工作方式有什么不同？其中一个比另一个更有效率吗？编辑:我是添加到研究论文的更多信息的链接，以及一些教程讨论的主题。隔离林：强健的随机砍伐森林：

浏览 3提问于2020-07-27得票数 6

回答已采纳

1回答

回归模型中的特征重要性

、

我使用KNN、决策树、随机森林和ANN对我的数据进行预测，使用Python，我有9个预测器。我的问题是，他们中的哪一个没有做出贡献。决策树，随机林允许运行特性的重要性。我这样做了，它表明，这3个预测因素的贡献很小。所以我似乎可以从数据集中删除它们。对于KNN和ANN，no model.feature_importances_ 假设对KNN和ANN来说，同样的预测因子也不起作用是正确的吗？或者特征的重要性取决于模型(例如，KNN的特性与随机森林的模型不同) 谢谢

浏览 3提问于2022-06-14得票数 1

2回答

如何防止/判断决策树是否过分合适？

、、

在say关于决策树的文档中，他们说我们应该特别注意不要过分适合这棵树。我们怎么能这么做？我意识到使用随机森林可能会阻止它的发生，但我通常如何判断它是否过分合适？你能用精确的分数来判断吗？例如，0.99的准确度得分是过度拟合的指标吗？在这种情况下，0.95是否意味着不过分适应？除了均衡的输入之外，还有哪些最佳实践可以避免过度(特别是使用SKLearn)？

浏览 0提问于2018-01-18得票数 7

1回答

理解max_features参数在RandomForestClassifier中的应用

、、、

我正在分析RandomForestClasifier，需要一些帮助。 max_features参数给出了随机林中分割特征的最大值no，一般定义为sqrt(n_features)。如果m为n的平方，则DT形成的组合不为nCm。如果nCm小于n_estimators (随机森林中的决策树没有)怎么办？示例：为n= 7，max_features为3，nCm为35，这意味着决策树有35个独特的特性组合。现在对于n_estimators = 100，剩下的65棵树是否会重复组合特性？如果是这样的话，在答案中引入偏见的树不是相互关联的吗？

浏览 2提问于2020-03-11得票数 1

回答已采纳

1回答

元随机森林分类器是如何确定最终分类的？

、、

我正试图确切地了解元随机森林分类器是如何确定最终预测的，我知道存在一个投票系统，并且使用决策树的聚合来找到最终的预测，我从这里读到：Python中的随机森林分类：随机森林是一种集合决策树算法，因为在回归问题中，最终预测是每个决策树预测的平均值；在分类中，它是最频繁的预测的平均值我阅读了RFC源代码：合奏/森林：输入样本的预测类别是森林中树木的投票，按其概率估计进行加权。也就是说，预测类别是平均概率估计值最高的一类。这是否意味着，例如： 📷 我们有3类(A，B，C)的估计器，每棵树都有一定数量的最终叶节点，并有一个类预测； A类、B类或C类的概率是叶节点预测A类的次数的结果，即Tree1

浏览 0提问于2019-04-30得票数 5

回答已采纳

1回答

随机森林中树中每个结点变量的随机选取

、、

在随机森林方法中，对于每棵树，我们随机选择一组固定大小的变量(特征)。但是，一旦为该特定树冻结了该集合，该树的行为是否与常规决策树算法类似？我假设随机森林只是生成一堆经典的“决策树”，并将它们的投票推向最终的分类。真的是这样吗？这是否意味着在树中的每个节点，我们从为该树固定的变量集中随机选择m个变量？还是来自训练数据集的全局变量集？然后从选择的一组变量中，我们启发式地选择一个变量(例如，哪个变量最大化信息增益) --这是一个正确的陈述吗？

浏览 1提问于2017-04-08得票数 1

2回答

如何改变随机森林所使用的函数，以便从单个树木中作出决策？

、、、

随机森林在训练时使用多个决策树，并输出类，这是单个树的类(分类)模式。是否有一种方法，而不是使用类的模式，运行另一个随机森林的输出产生的原始树？附加问题:这是个坏主意，有什么原因吗？(我相信人们以前也会想到这一点)

浏览 0提问于2015-06-18得票数 1

回答已采纳

2回答

在随机森林中，所有的决策树是否都被赋予相同的优先级？

、、、

在随机森林算法中，使用随机选择的特征( $log_2 n$ +1，其中n=数的特征数)生成m(例如)决策树数。从测试数据中选择任何样本的标签是根据这些决策树的投票数来选择的。但这些决策树的准确性不同(相当明显)。我的问题是，为什么我们要对所有的决策树给予同样的优先权？如果一个决策树在预测测试样本的标签时具有较高的准确性，那么我们是否应该给予它比那些预测精度较低的更高的优先级呢？

浏览 0提问于2018-05-30得票数 7

1回答

利用R求随机林中各树的分类概率

、、、

我想通过得到每个类的分类概率，在randomForest中的每个树。 (1)输出单个输出，但它的类型是响应，而不是概率。 predict(rf_cl, newdata, predict.all=TRUE)$individual (2)这产生了概率，但它属于森林，而不是所有的树木： predict(rf_cl, newdata, type="prob") (3)当我尝试这个时，得到的输出与第一个输出相同。 predict(rf_cl, newdata, predict.all=TRUE, type="prob")$individual 我在网上搜索了很长时间。

浏览 7提问于2022-07-03得票数 2

1回答

使用贝叶斯、随机森林、NN、支持向量机和决策树，免费向PMML输出SaaS机器学习

、、

我知道有很多机器学习库可以在本地计算机上运行ML算法。我正在寻找免费的基于云的机器学习服务，其中：注册时不需要信用卡(Amazon和Azure需要信用卡)。允许将ML模型导出为PMML或其他文件类型。具有朴素贝叶斯、随机森林、神经网络、支持向量机和决策树。我发现的唯一服务是bigml.com (免费的文件大小限制为16 ML )，但它似乎只有一个ML模型，即决策树:它缺少朴素贝叶斯、随机森林、神经网络和支持向量机。

浏览 0提问于2016-04-22得票数 2

1回答

如何使用不可靠的标签处理数据集

、、

我有一个数据集，属于三个不同的类: A、B和C。在这三个类中，标签C的分类与其他两个类相比是不可靠的。换句话说，C类中的一些样本实际上属于A类和B类。目前，我需要运行一些监督学习(logistic回归、决策树和随机森林)模型。根据混淆矩阵，A和B之间的分类是比较准确的，而C和其他两类之间的分类是不可接受的。我想知道是否有办法处理这个问题？现在，在运行模型之前，我正在考虑对C类中的样本使用聚类算法。将C类样本划分为3组后，尝试找出一个相对较好的C类数据集。

浏览 0提问于2018-03-06得票数 1

回答已采纳

1回答

将随机森林提取到单个DecisionTree中，这有意义吗？

、、

我无意中发现了这个博客，它展示了一个经过训练以适应经过适当训练的随机森林模型的预测的决策树是如何以与原始随机森林差不多的方式进行推广的。我对此很感兴趣，因为我是在嵌入式环境中实现ML的，在这种情况下，一个1000个例子射频是不可行的，但是一个更简单的10s分支树可能是可行的。我的第一个问题是:这是不是太好了？我能看到的唯一缺点是，由于过度拟合的过程，生成的决策树将非常大，但在任何情况下，我都假设它比整个随机森林更简单。次要问题:文献中是否有更详细地讨论这一过程的东西？

浏览 0提问于2023-05-22得票数 1

回答已采纳

1回答

如何在R中可视化随机森林模型输出？

、、

在R中是否存在随机森林输出的可视化？我读了一篇关于python中的export_graphviz库的文章，它使用输出的n_estimators参数以DOT格式导出决策树，然后用于生成决策树的图形表示。在R区有这样的东西吗？

浏览 10提问于2022-09-29得票数 0

回答已采纳

1回答

scikit中的随机森林回归-用标准MAE代替MSE学习的速度比MSE慢了150倍

、、、、

我试图用criterion = mae (平均绝对误差)代替mse (均方误差)进行随机森林回归。它对计算时间有很大的影响。大约需要6分钟( mae)而不是2.5秒( mse)。大约慢了150倍。为什么？如何减少计算时间？同样的情况发生在决策树上。差异不大，但每棵树的比例大致相同。

浏览 4提问于2020-06-28得票数 1

回答已采纳

1回答

什么类型的机器学习能够返回特征的重要性？

、

我一直在使用随机森林来计算特性的重要性，但是我问自己为什么是随机森林？所以我的问题变成了其他机器学习模型可以计算特征重要性吗？每种型号之间都有利弊吗？我做了一些研究，下面是我发现的一些用Y. (统计方法)计算每个X变量的统计相关评分-> 线性模型中的系数-> Logistic，线性回归，正则化(L1，L2，弹性网) 基于树的算法-> ex:决策树、RF、boosting算法排列重要性评分我想知道是否有其他方法。提前感谢！

浏览 0提问于2021-01-11得票数 0

1回答

随机森林-使空值在决策树中始终有其自己的分支

、、、、

您好，我正在使用随机森林来构建一个模型，并且我正在尝试处理空值。有没有人碰巧知道如何强制随机森林模型将空值视为自己的独立波段？(与在空值中一样，空值永远不会与其他值范围绑定在一起。因此，在决策树中，度量的空值总是有自己的分支)。我不想使用均值而不是空值，因为我不希望模型将空值与其他接近均值的值捆绑在一起，我也不想删除空值。我希望它能够使决策树始终将度量的空值视为自己的分支。谢谢:)

浏览 1提问于2019-11-21得票数 2

1回答

R中不同机器学习算法与boosting算法的结合

、

对于R是否有促进不同算法的包？例如，随机森林和神经网络。据我所知，包ada和gbm只能提升决策树。谢谢。

浏览 5提问于2013-06-05得票数 3

1回答

一段时间内流行的分类算法

、、

在Francois Chollet (2018)的“与Python一起深入学习”一书中，我们可以在1.2.4节中找到：决策树从数据中学到的知识在21世纪初开始受到广泛的研究兴趣，到了2010年，它们往往比内核方法更受青睐。..。特别是，随机森林算法引入了一种鲁棒的、实用的决策树学习方法，它涉及到建立大量的专门决策树，然后对它们的输出进行集成。随机森林适用于各种各样的问题--你可以说，它们几乎总是任何浅层机器学习任务的第二好算法。当广受欢迎的机器学习竞赛网站Kaggle (http://kaggle.com)于2010年启动时，随机森林很快就成了平台上的宠儿--直到2014年梯度助推机取代了它

浏览 0提问于2019-09-21得票数 2

1回答

为什么我的随机森林分类器模型中每个决策树的max_depth都是相同的？

、、、

为什么我的随机森林分类器模型中每个决策树的max_depth都是相同的？我设置了树的max_depth=30，当我打印每棵树( RandomForestClassifier = RandomForestClassifier.estimators_)时，我发现每棵树的max_depth都是相同的。我真的不知道问题出在哪里，也不知道它是怎么结束的。

浏览 19提问于2019-10-18得票数 0

2回答

分类编码后处理不平衡数据

、、、、

我有一个维数数据(13961,48 )，经过一次热编码和数据的基本按摩之后，观测到的维数(13961,862)。数据不平衡，两类“留用”约为6%，“未保留”约为94%。在运行logistic、knn、决策树、随机林等算法时，即使不进行任何特征选择，数据的准确率也很高，除“朴素偏倚分类器”外，准确率大多在94%以上。这似乎是奇怪的，甚至有任意两个随机特性->这提供了超过94%的准确性，这似乎是不现实的。此外，还提供了94%以上的精度，即使是上述任何算法的基线模型，如logistic，knn，决策树，随机森林，删除前20个特征后，这一结果的准确性超过94% (检查是否了解真实性)。

浏览 1提问于2019-08-20得票数 1

回答已采纳

2回答

如何用随机森林模型反向计算给定因变量的预测因子？

、、

给定一个随机森林模型y ~ x1 + x2，是否有可能将y的值传递给该模型，并获得x1和x2的可能结果？举个简短的随机例子： require(randomForest) mydf <- data.frame(y = c(1, 5, 6, 8, -1, -4), x1 = c(2, 8, 7, 10, 3, 0), x2 = c(18, 24, 26, 30, 15, 12)) myrf <- randomForest(y ~ ., data = mydf) 有没有一种方法可以反向计算随机森林模型的预测值？

浏览 44提问于2020-08-05得票数 0