如何使用pandas创建交叉表来显示随机森林预测器的预测结果？

使用pandas创建交叉表来显示随机森林预测器的预测结果的步骤如下：

首先，导入所需的库和模块：

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split

准备数据集，包括特征和目标变量。假设我们有一个名为data的DataFrame，其中包含特征列features和目标变量列target：

data = pd.DataFrame({'features': [1, 2, 3, 4, 5],
                     'target': [0, 1, 0, 1, 1]})

将数据集划分为训练集和测试集：

X_train, X_test, y_train, y_test = train_test_split(data['features'], data['target'], test_size=0.2, random_state=42)

创建随机森林分类器模型，并使用训练集进行训练：

rf = RandomForestClassifier()
rf.fit(X_train.values.reshape(-1, 1), y_train)

使用训练好的模型对测试集进行预测：

predictions = rf.predict(X_test.values.reshape(-1, 1))

创建交叉表来显示预测结果：

cross_tab = pd.crosstab(index=y_test, columns=predictions, rownames=['Actual'], colnames=['Predicted'])
print(cross_tab)

以上步骤中，我们使用了pandas库的crosstab()函数来创建交叉表，其中index参数为实际目标变量值，columns参数为预测结果。交叉表将实际值和预测值进行交叉统计，以便更直观地了解预测结果的准确性。

关于pandas和随机森林预测器的更多信息，您可以参考腾讯云的相关产品和文档：

pandas：pandas是一个强大的数据分析和处理工具，可在数据处理过程中提供高效的数据结构和数据分析功能。了解更多信息，请访问pandas产品介绍。
随机森林预测器：随机森林是一种集成学习算法，通过组合多个决策树来进行预测。了解更多信息，请访问随机森林预测器产品介绍。

请注意，以上答案仅供参考，具体实现方式可能因您的实际情况而有所不同。

页面内容是否对你有帮助？

有帮助

没帮助

偏移随机森林分类器scikit学习

、、、

我用python编写了一个程序，使用机器学习算法对数据进行预测。我使用Scikit学习中的函数RandomForestClassifier来创建一个随机森林来进行预测。该程序的目的是预测未知的天体物理源是脉冲星还是agn；因此它在已知数据上训练森林，然后对未知数据进行预测，但它不起作用。该程序预测未知数据都是脉冲星或全agn，它很少预测不同的结果，但并不正确。下面我将描述我的程序的段落。它创建了一个包含所有源数据的数据框: all_df它由十列组成，其中九列用作预测，一列用作目标： predictors=all_df[['spec_index','variab_i

浏览 1提问于2016-08-18得票数 0

1回答

如何使用varImp函数为随机森林选择特征？

、、

我已经应用随机森林的训练数据，其中有大约100个特征。现在，我想应用特征选择技术，以便在对数据应用随机森林模型之前减少特征的数量。如何使用varImp函数(从插入符号包)来选择重要的特性？我读到varImp本身使用一些分类方法来选择特性(我发现这非常违背直觉)。如何应用varImp来获取重要的特征子集，然后在应用随机森林分类算法时可以使用？

浏览 0提问于2015-05-04得票数 0

回答已采纳

1回答

从MLSeq R包中提取分类器

、、

目前，我对R相当陌生，在从包中提取我想要的信息时遇到了困难。我正在使用MLSeq实现随机森林的RNA Seq数据，以寻找生物标志物的条件。目前，默认情况下给出的输出只是对数据和表进行了多好的分类，该表根据预测的类来描述实际的类。我想要的是每个功能的重要性，以便我可以采取最高的排名功能，并继续调查这些。是否有人有使用MLSeq包的经验，或者知道有类似的机器学习包具有此功能？

浏览 4提问于2015-03-09得票数 0

回答已采纳

1回答

如何处理具有不同基数的多个范畴变量？

、、

我正在处理我在kaggle上找到的一个自动数据集。除了马力、车长、汽车重量等数值外，它还有多个分类变量，如： cardinality=5car品牌(丰田、日产、宝马等)：cardinality=21Doors (2 2door和4门)：cardinality=2Fuel型(汽油和柴油)：基数=2 我想使用随机森林分类器来执行特征选择，并将所有这些变量作为输入。我知道，在这样做之前，必须对分类变量进行编码。处理这些变化基数的数据的最佳方法是什么？我可以对不同的变量应用不同的编码技术吗？例如，燃料类型的热编码和汽车类型的标签编码？

浏览 3提问于2022-02-03得票数 1

1回答

随机森林去相关

、

在随机森林中，您可以从每个节点的m个特征中进行选择，而不是选择完整的特征集。这被认为是去相关的预测因素。直观地说，我理解这一点，但是在什么时候可以说预测因子是去相关的，以及我们如何证明在这种情况下，有没有任何统计数据在这种情况下

浏览 1提问于2018-03-14得票数 0

1回答

R中随机森林的类重要性

、、

我在R中使用randomForest pkg基于11个数值预测器来预测二进制类。在Hit或Miss这两个类中，Hit类更重要，即我想知道正确预测Hit的次数。有没有办法让Hit在训练随机森林时具有更高的重要性？目前，经过训练的随机森林仅正确预测了7%的命中案例，并且肯定希望得到改进。

浏览 1提问于2015-03-17得票数 1

1回答

如何为分类模型选择正确的预测器？

、、、、

我正在研究一个分类问题。我有两个模特： Logistic回归模型随机森林模型对于第一个模型，如果我选择唯一的p值<0.05的预测器，我将降低准确率、回忆等。IV (和WOE)预测器的选择与符合p值规则的预测器不一样。另一方面，随机森林并没有给出p值，只给出重要性度量，它们类似于IV预测因子。 So，应该使用哪些方法来选择正确的预测器，以便比较这两个模型？谢谢你看了这篇文章，希望你能帮我。我很乐意提供更多的细节。

浏览 0提问于2021-08-19得票数 0

1回答

逆ROC-AUC值？

、、、、

我有一个分类问题，需要预测给定数据的(0,1)类。基本上，我有一个具有300多个特性(包括用于预测的目标值)和2000多行(示例)的数据集。我使用不同的分类器如下： 1. DecisionTreeClassifier() 2. RandomForestClassifier() 3. GradientBoostingClassifier() 4. KNeighborsClassifier() 除了0.28左右的随机森林，几乎所有的分类器都给出了大约0.50 AUC值的相似结果。我想知道，如果逆RandomForest的结果，是否正确： 1-0.28= 0.72 然后报告给AUC？这是正

浏览 1提问于2019-01-15得票数 0

回答已采纳

6回答

随机森林sklearn

、、、

我对随机森林是否需要显式交叉验证感到困惑？在随机森林中，我们有现成的样本，这可以用于计算测试精度。是否需要显式交叉验证。在随机森林中显式使用CV有什么好处吗？基于下面的代码，我发现很难理解随机森林中的CV是如何工作的： model = BaggingClassifier(base_estimator=cart, n_estimators=num_trees, random_state=seed) results = cross_validation.cross_val_score(model, X, Y, cv=kfold) print(results.mean())

浏览 0提问于2018-10-11得票数 2

1回答

随机森林回归分析-综合问题

我对随机森林回归有一个深刻的理解。目标是一个大学项目:我们要用R中的财务数据做随机森林回归分析，我已经读了很多小时的随机森林例子，它们大多是分类类型，比如预测股票价值是上升还是下降。万一退步，我就站在线上。我的想法如下：如果我有如下结构的数据集： Date | Open | High | Low | Close | Volume ...I可以添加一些技术仪器，如RSI、SMA等。然后将数据集分解为训练和测试数据，执行随机森林过程，并对测试数据进行预测。但这真的是随机森林回归分析的目的吗？我猜一个“正确的”回归分析是比较两只股票，看看它们是否相关，根据另一只股票预测一只股票的价值--但在没有

浏览 0提问于2021-11-29得票数 2

1回答

(特征选择)与基于L2和基于树的不同结果

、

我正在使用Sklearn进行功能选择：基于树的特征选择: RandomForestClassifier.feature_importances_ 基于L2的特征选择: LogisticRegression.coef_ 目标变量是二进制类。培训集是标准化的。当某一特征在随机森林估计中表现出显著的重要性，而在Logistic回归中表现为负系数时，该如何解释？

浏览 0提问于2019-09-19得票数 1

回答已采纳

1回答

GAM零膨胀泊松(ziP)模型中的偏移量

、、

我试图在不同大小的森林碎片中模拟鸟类的计数数据。由于进行调查的地块在大小上亦因碎片而异，我想加入测量地块的大小，作为抵销的条件，将数目换算为密度。据我了解，从以前的问题在这个网站上，这通常是为泊松模型，因为这些有一个日志链接。我与家庭ziP一起运行的GAM模型(mgcv包)具有link="identity“。据我所知，在这种情况下，抵消项将从答复中减去，而不是产生预期的答复/抵消率。但是，当我用偏移项运行模型并绘制图时，结果似乎是给出了我想要的结果(我将泊松模型的图与ziP模型进行了比较)。这是我使用的模型，在这个模型中，行会反映不同的喂养公会，logArea是碎片大小的日志，而

浏览 1提问于2018-05-23得票数 0

回答已采纳

1回答

滑雪随机森林：.oob_score_太低了吗？

、、、

我在寻找随机森林的申请，我在Kaggle上发现了以下知识竞赛：。根据以下建议，我用sklearn建立了一个有500棵树的随机森林。 .oob_score_值为2%，而持久战组得分为75%。只有七种分类，所以2%真的很低。当我交叉验证时，我也得到了接近75%的分数。有谁能解释.oob_score_和阻碍/交叉验证分数之间的差异吗？我希望它们是相似的。这里有一个类似的问题：编辑:我想这也可能是个bug。代码是由我张贴的第二个链接中的原海报给出的。唯一的改变是在构建随机林时必须设置oob_score = True。我没有保存我做过的交叉验证测试，但是如果人们需要看到它，我可以重

浏览 1提问于2014-07-14得票数 5

1回答

计算混合数据插入符(preProcess)

、、

例如，在使用随机森林建模之前，我试图对数据进行估算。我有明确的和连续的特征。我想使用函数kNN (VIM包)来计算我的数据。但是我不能在插入符号的preProcess函数中使用这个函数，并且这个函数的knn计算不处理混合数据。如何在preProcess函数中计算混合数据？

浏览 2提问于2015-03-30得票数 0

回答已采纳

1回答

使用时间序列数据预测事件的发生

我有来自传感器的1个月的数据。数据是时间序列，每个数据点以1秒的间隔分隔。这些传感器记录了温度、压力、风扇转速等预测因素。根据这些值记录事件。因此，如果引擎运行正常，则event=0、event=1和此事件将持续相当长的时间，例如接下来10分钟，然后再次恢复正常。我正在尝试根据预测器的值来预测下一个事件的发生。我尝试了Cox比例风险模型，但是生存曲线并不准确。也尝试了随机森林，但是模型结果不是很好。模型的准确率始终保持在100%。生存分析可以用于时间序列数据吗？集群会有帮助吗？

浏览 3提问于2016-04-28得票数 1

1回答

如何将经过训练的随机森林模型应用于R中的新数据集？

、、

因此，我有一个数据集，基本上是2017年和2018年足球运动员的统计数据。我已经训练我的模型使用2017年的数据来预测2018年的触地得分数。我的代码如下： set.seed(1) data.rf <- randomForest(2018_td ~ ., data = data, proximity = TRUE) 在我的数据集中，我得到了2018年的实际触地数，并训练了一个随机森林算法来预测这个值。现在，我想将经过训练的随机森林应用到相同的2018年数据集上，但要预测TD的2019年#，这是我没有的。我不确定我是否遗漏了什么，或者我是否对RF的工作方式有一个根本错误的理解。如何从我的

浏览 0提问于2019-06-18得票数 0

回答已采纳

2回答

合奏模型过配？

我正在尝试一个分类项目。我已经把我的20000号数据分成了训练和测试集。在训练集上，我进行了分类选择，包括knn、随机森林和gbm。这些给我大约20%-30%的准确性在最好。对于每个样本，我生成每个类的概率，并建立一个新的模型。 Knn proba 1 knn proba 2.随机森林proba 1等在此基础上，我运行了一个随机森林分类器，它对测试集的准确率为90%。太棒了！。。但是当我对新的数据使用这个模型时，精度很低。在某种程度上，这感觉像是一个过度适应的情况，但当然测试集也应该是差的。为什么测试数据如此好而新数据却如此糟糕..。我做错了什么？谢谢克里斯

浏览 0提问于2015-08-16得票数 1

1回答

如何在预测中添加一些全局和局部的可解释性，以了解客户流失的原因？

、、

主要目标是了解：客户churn?Identify (客户)有多大可能是每个user.中的流失原因现在，我使用的是随机森林模型。我可以看到所有用户最重要的特性。有什么方法可以让每个用户获得重要的功能吗？例如，也许一个顾客离开是因为他们不喜欢这个产品，而另一个是离开，因为这是一种昂贵的产品，等等。提前感谢！

浏览 4提问于2022-02-01得票数 0

回答已采纳

1回答

随机森林中的开箱即用误差图

、、

我尝试将随机森林与我的数据集相匹配，以在控制组和阿尔茨海默组之间进行分类。在第一次尝试中，我得到了左侧的OOB错误图，在第二次尝试中，我减少了数据集中的变量数量，得到了右侧的OOB错误图。我的问题是比较这两个图，哪个是更好的OOB图? Alzhemier和Control的类误差是否应该接近森林的OOB曲线？如果是，为什么？

浏览 23提问于2018-02-05得票数 2

回答已采纳

1回答

在MATLAB中选择变重要特征后创建随机森林

、、

有没有可能选择变量重要性的特征，然后在MATLAB中创建一个随机森林？我使用TreeBagger()和OOBPermutedVarDeltaError()来获得重要特性的结果。但是现在我想使用这些重要的特性来重新创建一个随机森林。有可能吗？

浏览 0提问于2016-11-26得票数 0

1回答

建立90%正确模型所需的数据集的最小大小是多少？

、、、

我的工作是一个金融数据集的大小是大约3000。我尝试过监督学习回归技术，但不能超过70%的准确率. 功能: 10 数据大小:3700 模型尝试:决策树，随机森林，拉索回归，岭回归，线性回归我认为，数据集的大小太小，不能期望任何好的结果超过65%。这很明显，因为机器学习算法本质上是对数据的渴求。然而，在一般意义上，是否有一个下限的数据集大小已被发现达到90%的准确性？这样的理论也将帮助我收集数据，直到我到达那个点，然后做一些富有成效的工作。任何帮助都是非常感谢的。

浏览 0提问于2019-11-25得票数 -1

回答已采纳

1回答

用空格分隔以输出块段RMarkdown

、、

我有以下块代码 ## Generamos modelo (CAFEINA incluído) ```{r tidy=TRUE} (modelo<-随机森林(diagnostico~.，data=datos.entreno)) 变量 vimp<-as.data.framework(modelo$重要性) vimporder(vimp$MeanDecreaseGini)，drop=FALSE 骇客预测器预测值<-预测(modelo，datos.test) 预测子 Matriz de confusión (mc <- with(datos.test，table(预测，诊

浏览 2提问于2020-02-22得票数 0

回答已采纳

1回答

在H2O中使用分类变量的最佳实践？

、、、

我试着用H2O的随机森林进行多项分类，分为71个类，有38,000个训练集的例子。我有一个特性是字符串，在很多情况下是预测的，所以我想使用它作为一个分类特性。问题是，即使在对字符串进行规范化(大写、去掉数字、标点符号等)之后，我仍然有7,000个不同的字符串(有些是由于拼写或OCR错误，等等)。我有代码来删除相对较少的字符串，但我不确定什么是合理的截断值。(我似乎在文档中找不到任何帮助。) 我也不知道如何处理nbin_cats超参数。我应该让它等于我拥有的不同的分类变量的数量吗？添加: nbin_cats的缺省值是1024，而且我在300个不同的分类值下大大低于这个值，所以我想我不需要对这个

浏览 2提问于2018-01-26得票数 3

2回答

如果模型精度不超过基线水平(随机猜测)，我应该检查什么？

、、、、

我有一个只有8列的数据： id created_time employee_id 秩位小时价格 num_work_completed work_category 雇请 employee是目标变量，1表示已雇用，0表示未雇用，而它与5.7%的雇用(1)不平衡，这使得基线准确度达到94.3%，我试图构建预测是否会雇用员工的模型。在完成了EDA功能工程(处理NAs、编码分类变量、规范化数字变量)之后，我使用80/20作为拆分规则，并使用rank_position、hourly_price、num_work_completed、work_category_dummy建立了随机森林。 clf=Rand

浏览 0提问于2019-05-22得票数 1

回答已采纳

1回答

随机森林的数据准备与python的预测建模

、、、

我正在使用一个分类输出(pass/fail:二进制1或0)和大约200个特性进行预测建模练习。我有大约350 K的训练例子，但我可以增加我的数据集的大小，如果需要。下面是我遇到的几个问题：我正在处理严重不平衡的类。在这350 K示例中，只有2K被标记为“fail”(即分类输出= 1)。我该怎么解释呢？我知道有几种技术，比如用引导器进行上采样； 2- 我的大部分特征(~ 95%)是分类(例如城市、语言等)。每级不到5-6级。我是否需要将它们转换为特性的每个级别的二进制数据？例如，如果“城市”具有纽约、巴黎和巴塞罗那的三个级别，那么我可以将其转换为三个二进制特性: city_New_york、c

浏览 3提问于2015-04-17得票数 1

1回答

非平衡数据集问题的随机森林叠加实验

、、、

为了解决一个不平衡的数据集问题，我在给定的方式下实验了随机森林(受深度学习的启发)。训练一个随机森林，它将接收输入数据和训练模型标签的预测概率作为训练另一个随机森林的输入。这方面的伪代码： train_X, test_X, train_y, test_y = train_test_split(X,y, test_size = 0.2) rf_model = RandomForestClassifier() rf_model.fit(train_X, train_y) pred = rf_model.predict(test_X) print('******************R

浏览 0提问于2020-04-13得票数 2

回答已采纳

1回答

如何使用“getTree”树进行预测

、、、

我有一个随机森林模型。使用getTree函数，我可以获得在我的随机森林模型中创建的所有树。现在我想检查一下每棵树对一些观察结果所做的预测。出于这个原因，我需要使用我的随机森林模型中的每棵树进行预测。我发现这个问题的目的是一样的。但是，不幸的是，这个问题还没有得到回答。 https://stackoverflow.com/q/40875489/3834837 有什么建议吗？

浏览 36提问于2019-09-20得票数 0

2回答

你能解释一个支持向量机的输出概率吗？

我正在尝试使用不同的分类算法，比如随机森林，支持向量机，AdaBoost来构建一个二进制分类系统。我想使用这些分类器的输出来可视化一个分数。例如，在使用随机森林时，我想使用属于A类的样本的概率来构建一个从0到100的分数。假设随机森林输出一个概率(从0到1)，使用它，因为得分是直观的(我只需将它乘以100)。然而，考虑到SVMs输出的是一个分类，而不是一个概率输出(即到超平面的距离，而不是概率)，那么将到超平面的距离作为某种“伪概率”来使用是否合法？例如，我会对所有样本在超平面的距离上做最大-最小标度，所以所有的距离都是从0到1。我想要确定，我可以用超平面的距离作为一个伪概率，并且这个伪概率

浏览 0提问于2016-12-07得票数 5

回答已采纳

1回答

分类预测产生错误的结果scikit学习

我已经从数据集中生成了模型，并试图根据cohen_kappa得分和预测精度找到最佳算法。我对各种算法运行它，因为我将获得的数据类型是未知的，所以通过比较它们的kappa和准确性来找到最佳算法。我的数据被交叉验证了10倍。我在随机森林，决策树，SGDClassifier，感知器，被动攻击性，逻辑回归，梯度提升，朴素贝叶斯，KNeighbors之间进行了比较。在我的示例中，我得到了随机森林作为使用Kappa=1和accuracy=0.94进行分类的最佳算法我的分类是两类分类，条件是ResponseTime > 200。现在，当我尝试运行预测时，对于一些因变量的值，我得到了正确的预测，

浏览 2提问于2017-07-18得票数 0

1回答

Caret交叉验证随机森林方法中的mtry

、、、

我有一个包含499个观测和1412个变量的数据框架。我将数据帧分割成训练和测试集，用随机森林方法对卡莱特5倍交叉验证的训练集进行了尝试。我的问题是，随机森林方法的交叉验证是如何选择mtry值的？例如，如果您查看绘图，为什么过程不选择30作为mtry的状态值？

浏览 1提问于2018-01-02得票数 1

回答已采纳

1回答

包含范畴变量的LASSO子集选择

、、

我在有多个分类变量的数据集上运行了LASSO算法。当我在自变量上使用model.matrix()函数时，它会自动为每个因素级别创建虚拟值。例如，我有一个变量"worker_type“，它有三个值: FTE、contr、other。在这里，指的是情态"FTE“。其他一些分类变量有或多或少的因素水平。当我输出拉索的系数时，我注意到worker_typecontr和worker_typeother的系数都是零的。我该如何解释结果呢？在这种情况下，FTE的系数是多少？我应该把这个变量从公式中取出来吗？

浏览 1提问于2018-09-07得票数 2

回答已采纳

1回答

是否有可能让tensorflow打印出它在给定图像中看到的所有内容，而不仅仅是前五名的结果？

、、

我正在通过python教程为Tensorflow，我看到的结果，通常显示，但它总是给我前五名的结果。我试图在一个基本属性列表中识别所有的可能性，比如，如果我得到了一张森林的图片，我想问tensorflow，这张图片是否包含橡树、松树、灌木丛、河流等等。我不需要知道图像是否是一幅森林的图片。这个是可能的吗？我不是说给我结果--它还没有经过训练去看，我是说我要用不同类型的树木/灌木丛/等等来训练模型，我想知道给定的图像是否包含这些属性(或者它为给定属性考虑的概率)。

浏览 0提问于2018-07-23得票数 0

回答已采纳

1回答

以knn作为学习者的套袋

、、

我很难理解为什么matlab函数不允许使用带套袋的knn学习者创建集成模型，而只使用与随机森林方法更相似的随机子空间方法。我想使用套袋，以比较不同类型的学习者(如knn和树木)的套袋方法。我希望你能帮我，谢谢你，玛尔塔

浏览 0提问于2019-01-31得票数 0

回答已采纳

2回答

随机森林的多重分类--如何度量结果的“稳定性”

、、、

我使用随机森林(从学习)来处理一个多分类问题，排序类(比如0，.，n，在我的具体情况下有n=4 )分布大致相等。我有许多观察(大约5000)，我分别在火车/测试，70%/30% -类是平等分布的火车和测试。我设置了random_state=None，所以每次我重新运行模型的拟合(在相同的训练集上)，然后预测，我得到的结果略有不同的测试集。我的问题是如何通过比较不同的预测来衡量随机森林是否运行良好. 例如，如果我先得到0，然后才得到n(正如所说，0和n是最不同的类)，我会说RF根本不起作用。相反，如果只有少数预测从一个类变为一个接近类(例如，前0，然后1)，我会说RF工作得很好。是否有一个特

浏览 4提问于2021-01-30得票数 0

回答已采纳

3回答

R随机森林变量的重要性

、、、

我正在尝试使用随机森林软件包进行R. 所列的各种重要衡量标准如下： 0级变量x的平均原始重要性评分 1级变量x的平均原始重要性评分 MeanDecreaseAccuracy MeanDecreaseGini 现在我知道了这些“意思”，就像我知道它们的定义一样。我想知道的是如何使用它们。我真正想知道的是，这些值的含义只有在它们有多精确，什么是好的价值，什么是坏的价值，什么是最大值和最小值的情况下。如果变量具有较高的MeanDecreaseAccuracy或MeanDecreaseGini，这是否意味着它是重要的还是不重要的？此外，任何关于原始分数的信息也是有用的。我想

浏览 8提问于2009-04-10得票数 46

回答已采纳

1回答

基于随机森林分类器的分类集成

、

我创建了一个以随机森林作为基分类器的分类集合。每个随机森林都有500棵树。合共有100个这样的森林。多数票被用作投票方案。我期望分类器比单个随机森林的性能略好一些。然而，它的性能比随机森林差得多。有人能解释原因吗？

浏览 0提问于2018-04-09得票数 -1

1回答

随机森林:k折交叉验证的OOB？

、、、

我是机器学习的新手，目前我正在尝试使用R中的插入符号和randomForest包实现随机森林分类。我正在使用trainControl函数，并反复进行交叉验证。也许这是一个愚蠢的问题，但据我所知，随机森林通常使用装袋将训练数据分成不同的子集并进行替换，使用1/3作为验证集来计算OOB。但是，如果您指定要使用k折交叉验证，会发生什么情况？从插入符号文档中，我假设它只对重采样使用交叉验证，但是如果它只使用交叉验证，为什么仍然会得到OOB错误？或者，打包仍然用于模型的创建和性能评估的交叉验证？ TrainingControl <- trainControl(method = "repea

浏览 1提问于2021-03-19得票数 0

1回答

如何比较监督学习算法及其技术集成学习算法？

、、、、

我不得不比较支持向量机和随机森林算法，但是我搞不懂如何比较它，比如支持向量机是监督学习算法，随机森林是集合学习算法。帮助我如何比较它在哪一点上像-在分类，在回归。

浏览 0提问于2020-04-17得票数 0

回答已采纳

1回答

R预测模型预测预测和倾向的原因%

、、、、

然而，我对R和机器学习非常陌生，我必须进行一个项目，根据许多变量e.e来预测客户流失。服务年限、开出的贷方票据数量、错过交货的次数、提价次数等。我正在使用rpart和随机森林，并获得了一个数据集，其中每个数据集都有一个流失预测。我能够生成一个置信度矩阵，并查看哪些是重要的指标。然而，输出的目的是作为要处理的“风险”客户列表发送给销售团队。真正重要的是将信心/倾向/喜欢度%附加到流失中，以便我可以按风险顺序进行排名，但同时，是否有一种方法可以为每个客户添加类别/摘要/原因，说明为什么他们被预测会流失-即客户abc -价格上涨，因此我们需要小心定价。客户对未交货的清晰度很高，需要修复我们的服务

浏览 1提问于2016-09-21得票数 1

2回答

调整用于成本敏感分类的超参数

、、、

我有一个不平衡的数据集和大约8%的负例子。目标是在给定成本矩阵的情况下尽量减少假负数。似乎支持向量机(带有径向核)和随机森林最有效。如何在此设置中调优超参数？我的建议是:将数据分离到训练/验证集中，使用概率输出和成本矩阵来分配预测的类，优化超参数以使准确性最大化。我怎样才能提高性能？目前，我使用的随机森林与nodesize=1和mtry=5，它的准确率约97%。

浏览 0提问于2015-08-14得票数 2

1回答

R中随机森林的时间序列预测

、、、

我试着用随机森林做时间序列分析。PFB我的代码 Subsales<-read.csv('Sales.csv') head(Subsales) 样本数据： Date SKU City Sales <date> <chr> <chr> <dbl> 1 2014-08-11 Vaseline Petroleum Jelly Pure 60 ml Jeddah1 378

浏览 2提问于2017-04-03得票数 5

回答已采纳

3回答

R中支持向量机和朴素贝叶斯分类器的变量重要性

、、、

我正致力于在癌症数据集的R中构建预测分类器。我使用随机森林，支持向量机和朴素贝叶斯分类器。我无法计算支持向量机和NB模型的变量重要性我最终收到以下错误。 UseMethod中的错误(“varImp”)：不适用于“c(‘svm.式’，‘svm’)类对象的'varImp‘方法如果有人能帮我，我会非常感激的。

浏览 18提问于2016-04-25得票数 3

2回答

如何得到预测的类而不是类的概率？

、、、

我使用caret软件包训练了一个随机森林，用于预测二进制分类任务。 library(caret) set.seed(78) inTrain <- createDataPartition(disambdata$Response, p=3/4, list = FALSE) trainSet <- disambdata[inTrain,] testSet <- disambdata[-inTrain,] ctrl <- trainControl(method = "repeatedcv", number = 10, repeats = 10) grid_rf

浏览 3提问于2016-07-29得票数 2

回答已采纳

1回答

用R实现随机林的误差

、

我仍然是ML算法的初学者。我试图在dataset上应用随机森林，但我在试图拟合模型时遇到了一个错误。下面是错误 rf <- randomForest(winequality.red$quality ~ ., data=train) Model.frame.default中的错误(公式= winequality.red$quality ~ .，data = train，：变量长度不同(在“fixed.acidity”中找到) 如果需要，我可以发送数据集和代码。提前谢谢你的提示。最佳穆罕默德

浏览 2提问于2020-09-06得票数 0

1回答

从sklearn (而不是从单个clf.estimators_)制作图形

、、、、

巨蟒。斯克洛。RandomForestClassifier。在对RandomForestClassifier进行拟合之后，它是否产生了某种单一的“最佳”平均“共识树”，可以用来创建一个图形？是的，我看了文件。不，它什么也没说。没有RandomForestClassifier没有tree_属性。但是，您可以从clf.estimators_中获取森林中的单个树，因此我知道我可以从其中之一生成图形。有一个。我甚至可以给所有的树打分，找出森林中得分最高的树，然后选择那棵树.但这不是我要问的。我想从“平均”的最终随机森林分类器结果中生成一个图形。这个是可能的吗？或者，最终的分类器是否使用底层的树来产

浏览 3提问于2017-06-09得票数 2

回答已采纳

1回答

使用随机森林中的模型预测外部数据集

我使用python中的joblib.dump保存了使用随机森林进行5折交叉验证建模的模型。因此，我为每个数据集保存了5个模型：MDL_1.pkl, MDL_2.pkl, MDL_3.pkl, MDL_4.pkl, MDL_5.pkl。现在，当我的外部数据集中每一行的最终预测是平均5个模型时，我想使用这些模型通过predict_proba对外部数据集进行预测。继续的最佳方式是什么？谢谢你的帮助

浏览 0提问于2016-09-19得票数 0

1回答

randomForest: na.fail.default中的错误:对象中缺少值

、

我试图通过交叉验证来训练一个随机森林，并使用caret包来训练rf： ### variable return_customer = binary variable idx.train <- createDataPartition(y = known$return_customer, p = 0.8, list = FALSE) train <- known[idx.train, ] test <- known[-idx.train, ] k <- 10 set.seed(123) model.control <- trainControl(method =

浏览 2提问于2017-01-15得票数 6

1回答

我应该在重复K次交叉验证的同时重复测试/训练分割吗？

、、

我在我的数据上拟合随机森林回归，并使用10K的交叉验证来评估模型的性能。在重新运行交叉验证时，我注意到每次运行的结果都不一样，有时会有很大的差异。因此，我决定重复交叉验证计算20次，创建一个for-循环，然后总结结果。为了说明一下，我做了这样的事情： for (i in 1:20) { trainIndex <- createDataPartition(data$response, p = .8, list = FALSE, times = 1) data_train <- data[ trainIndex,] data_test <- data[-trainIndex,

浏览 0提问于2021-05-14得票数 0

2回答

如何使用cross_validation_scores使用的分类器

、、

我正在尝试训练一个交叉验证的支持向量机模型(用于一个学校项目)。当我打电话给X和y时 clf = svm.SVC(gamma='scale') scores = cross_val_score(clf, X, y, cv=4) scores按预期设置为数组，但我希望能够调用clf.predict(test_x)，但当我这样做时，会抛出消息This SVC instance is not fitted yet. Call 'fit' with appropriate arguments before using this method.的异常(我希望它返回类似于[

浏览 0提问于2019-09-06得票数 3

回答已采纳

1回答

关于R中的食谱包

、

您好，我正在机器学习模型中使用功能工程的食谱。然而，当我使用step_dummy时，伪变量被视为数值变量，而不是因子。我认为当我们使用随机森林或其他树模型时，这可能是有问题的。我们如何才能改变这一点呢？PDP显示虚拟预测器被视为数值。所以X轴有0.25，0.5......这应该只有0和1(因为是虚拟的)。 library(modeldata) library(recipes) library(caret) library(ranger) library(ggplot2) library(pdp) data(okc) okc <- okc[complete.cases(okc),] r

浏览 7提问于2020-02-29得票数 1