通常情况下，OTB是否足以评估随机森林或袋装分类器，或者交叉验证是否也适用于此？ - 腾讯云开发者社区

cross-validation、sampling

我想知道对分类问题选择哪种类型的模型交叉验证:K次抽样还是随机次抽样(引导抽样)？我的最佳猜测是使用2/3的数据集(约1000项)进行培训，1/3用于验证。在这种情况下，K折叠只提供三次迭代(折叠)，这不足以看到稳定的平均误差。另一方面，我不喜欢随机次抽样特性:有些项目将永远不会被选择用于培训/验证，而有些项目将被多次使用。使用的分类算法:随机森林和logistic回归。

浏览 0提问于2014-06-20得票数 13

回答已采纳

2回答

为什么训练数据集的准确性是100%使用随机森林插入，它是否表明过度拟合？

classification

我试着预测训练集，但我获得了100%的准确性。然而，在测试集上，我得到了62%的准确性。我是否应该担心在使用插入符号训练数据集时会有很高的习惯性？为什么训练数据集的准确性是100%使用随机森林插入，它是否表明过度拟合？ 📷

浏览 0提问于2020-02-17得票数 0

1回答

随机森林回归分析-综合问题

random-forest

我对随机森林回归有一个深刻的理解。目标是一个大学项目:我们要用R中的财务数据做随机森林回归分析，我已经读了很多小时的随机森林例子，它们大多是分类类型，比如预测股票价值是上升还是下降。万一退步，我就站在线上。我的想法如下：如果我有如下结构的数据集： Date | Open | High | Low | Close | Volume ...I可以添加一些技术仪器，如RSI、SMA等。然后将数据集分解为训练和测试数据，执行随机森林过程，并对测试数据进行预测。但这真的是随机森林回归分析的目的吗？我猜一个“正确的”回归分析是比较两只股票，看看它们是否相关，根据另一只股票预测一只股票的价值--但在没有

浏览 0提问于2021-11-29得票数 2

2回答

当使用多个分类器-如何衡量整体的性能？[SciKit学习]

python、machine-learning、scikit-learn、bioinformatics、random-forest

我有一个分类问题(预测一个序列是否属于一个类)，对于这个问题，我决定使用多种分类方法，以帮助筛选出假阳性。 (问题在于生物信息学-将蛋白质序列归类为神经肽前体序列。如果有人感兴趣，，)。现在，分类器在10倍CV的训练集上具有大致相似的性能指标(83-94%的准确率/精度/等等)，所以我的“朴素”方法是简单地使用多个分类器(随机森林、ExtraTrees、支持向量机(线性核)、支持向量机(径向基核)和伽玛基)，并使用简单的多数投票。我的问题是:如何获得不同分类器和/或它们的投票预测的性能指标？也就是说，我想看看使用多个分类器是否能提高我的性能，或者它们的哪个组合可以提高我的性能。我的直觉可

浏览 2提问于2014-02-01得票数 8

回答已采纳

1回答

基于随机森林分类器的分类集成

random-forest、ensemble-learning

我创建了一个以随机森林作为基分类器的分类集合。每个随机森林都有500棵树。合共有100个这样的森林。多数票被用作投票方案。我期望分类器比单个随机森林的性能略好一些。然而，它的性能比随机森林差得多。有人能解释原因吗？

浏览 0提问于2018-04-09得票数 -1

3回答

超参数整定与分类算法的比较

python、machine-learning、model、comparison、hyperparameters

对于分类算法的比较，我有一个疑问。我正在做一个关于数据集的超参数调优和分类模型比较的项目。我们的目标是为我的数据集找出最适合我的超参数的模型。例如:我有两个分类模型(支持向量机和随机森林)，我的数据集有1000行和10列(9列是特性)，最后一列是可分层的。首先，我将dataset分为2部分(80-10行)，用于相应的训练(800行)和测试(200行)。在此基础上，利用CV = 10的网格搜索对这2种模型(支持向量机和随机森林模型)上的训练集进行参数整定。当对每个模型识别超参数时，我使用这两个模型的这些超参数在训练和测试集上测试Accuracy_score，以确定哪一个模型对我的数据是最好

浏览 0提问于2020-12-31得票数 0

回答已采纳

3回答

随机森林交叉验证

machine-learning、random-forest、cross-validation

我用下面的代码做了随机森林回归和交叉验证。我有两个问题。我不明白在回归而不是分类的情况下交叉验证中的“分数”意味着什么(我指的是默认的情况下).What是吗？是否有函数将其他函数(如mean_squared_error)设置为分数？谢谢。 from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(n_estimators=100, criterion='mse',random_state=1, n_jobs=-1) rf.fit(X_trainr,

浏览 0提问于2018-03-25得票数 1

1回答

交叉验证与随机森林

machine-learning、random-forest、cross-validation

我使用随机森林来预测数据集中的标签。我的问题是:使用随机森林进行10倍交叉验证是否有意义？从直觉上讲，我可以说，随机森林可以单独进行交叉验证--那么在每次分割中进行交叉验证和构建随机森林分类器会有什么好处吗？

浏览 2提问于2014-03-12得票数 0

回答已采纳

6回答

随机森林sklearn

python、scikit-learn、random-forest、cross-validation

我对随机森林是否需要显式交叉验证感到困惑？在随机森林中，我们有现成的样本，这可以用于计算测试精度。是否需要显式交叉验证。在随机森林中显式使用CV有什么好处吗？基于下面的代码，我发现很难理解随机森林中的CV是如何工作的： model = BaggingClassifier(base_estimator=cart, n_estimators=num_trees, random_state=seed) results = cross_validation.cross_val_score(model, X, Y, cv=kfold) print(results.mean())

浏览 0提问于2018-10-11得票数 2

1回答

带有测试数据的Weka中的空混淆矩阵

weka

我使用决策树(C4.5)、随机森林和朴素贝叶斯对虹膜数据进行分类。我使用的是从和下载的数据集。当我训练所有的网络时，通过“分类器输出”、“类的详细精度”和“混淆矩阵”，一切都很好。但是，当我在Weka-explorer-classify test选项中选择iris-test数据并选择iris-test文件，在'more options‘中选择'output prediction’作为'csv‘并点击start时，我得到的结果如下图所示。 “分类器输出”正确地显示了分类样本，但是，“类的详细精度”和“混淆矩阵”是所有值为零的。我在选择任何选项时出错的任何建议。谢谢。

浏览 7提问于2017-08-26得票数 0

回答已采纳

2回答

韦卡-我如何检查是否有过火的韦卡？

machine-learning、weka

在weka中，如何检查诱导树是否适合训练数据？编辑：现在，这些是我的随机森林分类器建立在一个大训练集和一个小得多的验证集上的结果(根据大训练集的类比动态生成)。您说过，如果存在过度拟合，测试集(我称之为验证集)的性能会严重下降？但在这种情况下，它似乎并没有下降太多。大型训练集(25000条记录) === Evaluation on training set === === Summary === Correctly Classified Instances 24849 99.3563 % Incorrectly Classified Insta

浏览 3提问于2013-05-29得票数 2

2回答

是否有必要同时运行带交叉验证的随机林

machine-learning、classification、random-forest

随机森林是一种健壮的算法。在随机森林中，它训练了几棵小树，并具有OOB准确性。然而，是否有必要同时对随机森林运行交叉验证？

浏览 0提问于2013-03-25得票数 2

回答已采纳

1回答

给定特征数求随机森林的最大深度

machine-learning、random-forest

如果我们知道特征的数量，如何找到随机森林的最大深度？这是对随机森林分类器进行正则化的必要条件。

浏览 0提问于2015-10-06得票数 2

回答已采纳

1回答

随机森林:k折交叉验证的OOB？

r、random-forest、cross-validation、r-caret

我是机器学习的新手，目前我正在尝试使用R中的插入符号和randomForest包实现随机森林分类。我正在使用trainControl函数，并反复进行交叉验证。也许这是一个愚蠢的问题，但据我所知，随机森林通常使用装袋将训练数据分成不同的子集并进行替换，使用1/3作为验证集来计算OOB。但是，如果您指定要使用k折交叉验证，会发生什么情况？从插入符号文档中，我假设它只对重采样使用交叉验证，但是如果它只使用交叉验证，为什么仍然会得到OOB错误？或者，打包仍然用于模型的创建和性能评估的交叉验证？ TrainingControl <- trainControl(method = "repea

浏览 1提问于2021-03-19得票数 0

2回答

合奏模型过配？

classification

我正在尝试一个分类项目。我已经把我的20000号数据分成了训练和测试集。在训练集上，我进行了分类选择，包括knn、随机森林和gbm。这些给我大约20%-30%的准确性在最好。对于每个样本，我生成每个类的概率，并建立一个新的模型。 Knn proba 1 knn proba 2.随机森林proba 1等在此基础上，我运行了一个随机森林分类器，它对测试集的准确率为90%。太棒了！。。但是当我对新的数据使用这个模型时，精度很低。在某种程度上，这感觉像是一个过度适应的情况，但当然测试集也应该是差的。为什么测试数据如此好而新数据却如此糟糕..。我做错了什么？谢谢克里斯

浏览 0提问于2015-08-16得票数 1

5回答

如何不用交叉验证检查机器学习的准确性

python、machine-learning、scikit-learn、neural-network、random-forest

我有训练样本X_train，Y_train训练和X_estimated。我的任务是让我的分类器尽可能准确地学习，然后在X_estimated上预测结果向量，以得到接近Y_estimated的结果(我现在已经知道了，而且我必须尽可能精确)。如果我把我的训练数据分割成75/25来训练和测试，我可以使用sklearn.metrics.accuracy_score和混淆矩阵来获得准确性。但我失去了25%的样本，这将使我的预测更加准确。有什么办法，我可以通过使用100%的数据学习，仍然能够看到准确性评分(或百分比)，所以我可以预测它多次，并保存最佳(%)的结果？我使用的随机森林有500个估计，通常得到

浏览 12提问于2019-11-20得票数 2

回答已采纳

2回答

调整用于成本敏感分类的超参数

r、classification、class-imbalance、hyperparameter

我有一个不平衡的数据集和大约8%的负例子。目标是在给定成本矩阵的情况下尽量减少假负数。似乎支持向量机(带有径向核)和随机森林最有效。如何在此设置中调优超参数？我的建议是:将数据分离到训练/验证集中，使用概率输出和成本矩阵来分配预测的类，优化超参数以使准确性最大化。我怎样才能提高性能？目前，我使用的随机森林与nodesize=1和mtry=5，它的准确率约97%。

浏览 0提问于2015-08-14得票数 2

4回答

处理scikit中不平衡测试集的最佳方法--学习

machine-learning、scikit-learn

什么是最好的方法来处理一个不平衡的测试集在科学工具包-学习？我的训练数据被分成两类，其中样本外的数据可能更接近90/10。我使用随机森林、logistic回归和梯度提升来分类和关注概率输出。

浏览 4提问于2014-03-24得票数 0

回答已采纳

3回答

随机森林分类器是否需要验证集？

random-forest

使用随机森林分类器时是否需要有训练、测试和验证集？我知道它对神经网络很重要，但我不理解它对射频的重要性。我知道有第三组看不见的数据来测试是非常重要的，尤其是使用神经网络，但在RF中，你似乎几乎没有测试或验证数据(我知道在实践中这是不正确的)，但理论上，因为森林中的每一棵树都使用了训练数据集的随机样本(替换)。目前，我遗漏了大约250个样本，因为它们无法从火车和测试集中看到，而且我知道模型会随着额外的数据而改进，那么是否有可能只进行培训和测试，而不指定一个独立的验证集，同时仍然有一个可靠的模型？

浏览 0提问于2019-10-08得票数 9

回答已采纳

1回答

非平衡数据集上的Logistic回归与随机林

random-forest、logistic-regression

我有一个不平衡的数据集，其中阳性仅占整个样本的10%。我使用logistic回归和随机森林进行分类。通过对这些模型结果的比较，发现0,1和0，0.6之间的logistic回归结果在概率输出上存在一定的差异。我不能分享数据集，但我怀疑这些算法的工作。随机森林如何产生小于0.6的概率？

浏览 0提问于2020-07-23得票数 1

回答已采纳

1回答

如何使用SciKit随机森林的oob_decision_function_来学习曲线？

python、scikit-learn、random-forest

有人能解释一下如何将oob_decision_function_属性用于python SciKit随机森林分类器吗？我想用它来绘制学习曲线，比较不同训练集大小的训练和验证误差，以便识别过拟合和其他问题。似乎找不到任何关于如何做这件事的信息。

浏览 0提问于2016-04-12得票数 3

回答已采纳

3回答

模型性能因列车试验的不同而不同？

machine-learning、random-forest、training

我将我的数据集与随机森林分类器相匹配，发现模型的性能在不同的训练和测试数据分割集之间会有所不同。正如我所观察到的，在ROC曲线下，AUC将从0.67上升到0.75 (在相同的参数设置下用相同的模型进行拟合)，下垫范围可能会更宽。那么，这种现象背后的问题是什么，以及如何处理这个问题呢？据我理解，交叉验证用于特定的列车和测试数据的分割。

浏览 0提问于2017-01-05得票数 2

回答已采纳

1回答

垃圾邮件分类-机器学习

machine-learning、classification、spam-prevention

我必须使用一些分类器(例如朴素贝叶斯、支持向量机和另一个分类器)来做垃圾邮件检测应用，并比较它们的效率，但不幸的是，我不知道我应该做什么。这是正确的吗:首先，我应该有trec2005，垃圾邮件或安然垃圾邮件等垃圾邮件.然后，我做文字预处理，如词干，停止字删除，标记等. 在此之后，我可以使用tf-以色列国防军在垃圾邮件中衡量我的特征/术语的权重。接下来，我用非常低的频率和很高的频率去除这些特征。然后我就可以把我的邮件分类了。对吗？之后，我可以用真阳性、假阳性等来衡量我的正确分类。如果某件事需要10倍的交叉验证？我该怎么用呢？你能告诉我这些电子邮件分类的步骤是否可以吗？如果没有，请解释哪些

浏览 1提问于2014-03-15得票数 1

回答已采纳

2回答

如何删除测试集，使模型使用所有数据作为培训数据？

machine-learning、python、classification、scikit-learn、random-forest

我开发了一个RandomForest分类模型，我对测试集上的结果非常满意。现在，我的下一步是部署模型。在部署之前，我希望删除测试集，这样模型就可以在整个数据集上学习。然后，它将被用来分类新的未见数据。我该怎么做？我使用test_train_split将数据拆分为train和test，定义了随机森林模型，并将其用于fit(X_train, y_train)。

浏览 0提问于2022-11-17得票数 1

回答已采纳

4回答

有多少种方法来检查模型是否过模？

machine-learning、regression、overfitting

我正在对一个回归分类问题运行xgboost，在这个问题上，该模型预测一个基因从0到1引起疾病的可能性有多大。我试着避免在我所能想到的所有方法中过度拟合，嵌套交叉验证的平均输出是r2 0.88，我不确定我是否可以相信它，或者是否有其他方法可以看到这是否过度合适。仅对非嵌套的培训和测试的输出r2是:培训r2: 0.971测试r2: 0.868。迄今为止，我：删除相关性>0.9的特征，删除丢失数据>50%的特征(这很难增强，许多遗传特征只是缺少生物学研究的许多基因的缺失数据)。由于xgboost接受丢失的数据，因此不需要进行估算以避免估算偏差。 scikit中的MinMaxSca

浏览 0提问于2020-07-07得票数 3

回答已采纳

1回答

特征在随机森林预测中的正面或负面影响

machine-learning、classification、random-forest、predictor-importance

在分类中，当我们想要在随机森林算法中得到每个变量的重要性时，我们通常使用Gini的平均减少或精度度量的平均下降。现在是否有一个度量来计算每个变量的正负效应，而不是对模型的预测精度，而是对因变量本身的影响？类似于标准线性回归模型中的贝塔系数，但在随机森林分类的背景下。

浏览 0提问于2020-05-03得票数 4

回答已采纳

4回答

ML模型是否有可能执行比随机分类更糟糕的操作？

machine-learning

我在具有二进制数据的矩阵上实现了不同的机器学习算法来预测两个类别的单变量目标。随机森林(精度= 62.01) 神经网络(acc= 58.9) 支持向量机-径向核(精度= 58.02) 线性判别分析(精度= 57.9) logistic回归(准确性= 57.6)。我的基线精度是52.55。但是在相同的情况下，朴素的Bayes只给出了48.5的精度，只识别了y中的一个类。机器学习模型有可能比随机分类更糟糕吗？

浏览 0提问于2017-08-11得票数 6

2回答

随机森林-Python的分层抽样

python、scikit-learn、classification、random-forest

我正在构建一个随机森林分类模型，响应变量split为98%(False)-2%(True)。为此，我使用Scikit Learn的RandomForest分类器。处理这种不平衡数据并避免过度采样的最佳方法是什么？

浏览 1提问于2016-03-29得票数 2

2回答

基于adaboost的随机林基分类器

machine-learning、scikit-learn、classification、random-forest、adaboost

我是否可以使用带有随机森林的AdaBoost作为基分类器？我在网上搜索，但没有找到做这件事的人。和下面的代码一样，我试着运行它，但是它需要很多时间： estimators = Pipeline([('vectorizer', CountVectorizer()), ('transformer', TfidfTransformer()), ('classifier', AdaBoostClassifier(learning_rate=1))]) RF=R

浏览 6提问于2021-04-06得票数 0

回答已采纳

1回答

随机森林的数据准备与python的预测建模

python、machine-learning、prediction、random-forest

我正在使用一个分类输出(pass/fail:二进制1或0)和大约200个特性进行预测建模练习。我有大约350 K的训练例子，但我可以增加我的数据集的大小，如果需要。下面是我遇到的几个问题：我正在处理严重不平衡的类。在这350 K示例中，只有2K被标记为“fail”(即分类输出= 1)。我该怎么解释呢？我知道有几种技术，比如用引导器进行上采样； 2- 我的大部分特征(~ 95%)是分类(例如城市、语言等)。每级不到5-6级。我是否需要将它们转换为特性的每个级别的二进制数据？例如，如果“城市”具有纽约、巴黎和巴塞罗那的三个级别，那么我可以将其转换为三个二进制特性: city_New_york、c

浏览 3提问于2015-04-17得票数 1

2回答

你能解释一个支持向量机的输出概率吗？

machine-learning

我正在尝试使用不同的分类算法，比如随机森林，支持向量机，AdaBoost来构建一个二进制分类系统。我想使用这些分类器的输出来可视化一个分数。例如，在使用随机森林时，我想使用属于A类的样本的概率来构建一个从0到100的分数。假设随机森林输出一个概率(从0到1)，使用它，因为得分是直观的(我只需将它乘以100)。然而，考虑到SVMs输出的是一个分类，而不是一个概率输出(即到超平面的距离，而不是概率)，那么将到超平面的距离作为某种“伪概率”来使用是否合法？例如，我会对所有样本在超平面的距离上做最大-最小标度，所以所有的距离都是从0到1。我想要确定，我可以用超平面的距离作为一个伪概率，并且这个伪概率

浏览 0提问于2016-12-07得票数 5

回答已采纳

1回答

分类预测产生错误的结果scikit学习

scikit-learn

我已经从数据集中生成了模型，并试图根据cohen_kappa得分和预测精度找到最佳算法。我对各种算法运行它，因为我将获得的数据类型是未知的，所以通过比较它们的kappa和准确性来找到最佳算法。我的数据被交叉验证了10倍。我在随机森林，决策树，SGDClassifier，感知器，被动攻击性，逻辑回归，梯度提升，朴素贝叶斯，KNeighbors之间进行了比较。在我的示例中，我得到了随机森林作为使用Kappa=1和accuracy=0.94进行分类的最佳算法我的分类是两类分类，条件是ResponseTime > 200。现在，当我尝试运行预测时，对于一些因变量的值，我得到了正确的预测，

浏览 2提问于2017-07-18得票数 0

1回答

如何比较监督学习算法及其技术集成学习算法？

machine-learning、random-forest、svm、supervised-learning、model-evaluations

我不得不比较支持向量机和随机森林算法，但是我搞不懂如何比较它，比如支持向量机是监督学习算法，随机森林是集合学习算法。帮助我如何比较它在哪一点上像-在分类，在回归。

浏览 0提问于2020-04-17得票数 0

回答已采纳

2回答

如何处理决策树，随机森林的分类特征？

apache-spark-mllib、random-forest、decision-tree

我试图在UCI银行营销数据-> 上建立决策树和随机森林分类器。数据集中有许多分类特性(具有字符串值)。在spark文档中，可以通过使用StringIndexer或VectorIndexer索引将分类变量转换为数字变量。我选择使用StringIndexer (向量索引需要向量特征和向量汇编程序，它将特征转换为向量特征，只接受数字类型)。使用这种方法，将根据分类特征的频率(类别特征的最频繁标记为0)为每个级别分配数字值。我的问题是，随机森林或决策树算法如何理解新特征(从分类特征派生)与连续变量不同。算法中是否认为索引特征是连续的？这是正确的做法吗？或者我应该继续对分类特性进行一次热编码。

浏览 6提问于2017-07-06得票数 5

回答已采纳

1回答

模型学习曲线的解释

machine-learning、python、machine-learning-model、data-science-model、overfitting

我需要一些帮助，以了解这些模型是否过分合适，以及哪些我们可以认为“最好的”。在互联网上，我只找到简单的例子，学习曲线，但在这些情况下，我不确定解释，所以，谢谢你提前。这是一个二进制分类问题，数据集中的类是相当平衡的。第一个模型是具有数据集所有特性的随机森林： 📷 第二个是KNN分类器，它具有以下所有特性： 📷 然后，我只选择了数据集的4个特性，并应用了模型(使用gridsearchcv，因此改变了超参数)，这再次是随机森林： 📷 最后一个是KNN分类器，只有4个特性： 📷 前两个模型在学习曲线上有问题吗？看看前两款车型，与前两款相比，它们有了改进吗？我知道，在第二种情况下，准确性最差，但也许它

浏览 0提问于2022-12-28得票数 1

1回答

随机森林模型与其它模型的比较

neural-network、random-forest、ensemble-modeling

我是机器学习的新手，我正在努力消除随机森林中的袋外错误及其使用。假设我们有一个数据集。首先，我们使用整个数据集(不分裂它)得到一个随机森林及其袋外错误。然后对数据集进行分割，在训练部分进行神经网络训练，并在数据集的测试部分进行测试。通过比较随机森林的包外误差和神经网络的总检验误差，可以在这两种模型之间进行选择吗？说得通吗？

浏览 0提问于2020-09-03得票数 1

回答已采纳

1回答

如何处理最新的星火随机森林的分类特征？

apache-spark、apache-spark-mllib、random-forest、apache-spark-ml、feature-engineering

在随机森林的Mllib版本中，有可能用参数categoricalFeaturesInfo指定具有名义特征(数值但仍然是绝对变量)的列，那么ML随机森林是什么呢？在用户指南中，它使用VectorIndexer来转换向量中的分类特征，但是它被写成“自动识别分类特征，并对它们进行索引” I发现，在随机森林中，数字索引无论如何都被视为连续的特性，因此建议进行一次热编码以避免这种情况，对于这种算法来说，这似乎没有意义，特别是考虑到上面提到的官方示例！我还注意到，当分类列中有许多类别(>1000)时，一旦用StringIndexer进行索引，随机林算法就会要求我设置MaxBin参数，假定它与连续

浏览 1提问于2017-10-15得票数 6

回答已采纳

1回答

随机森林参数调优R(插入符)和Python(学会)？

python、r、random-forest

问:是否有可能，甚至有必要，在训练一个新模型时，执行交叉验证检查来调优Python随机森林实现的参数(例如scikit学习)，就像R的插入符号中所做的那样？背景R:当使用R的插入符号的随机森林库时，可以通过执行n倍交叉验证来调整参数。 train_control <- trainControl(method = "repeatedcv", number = 10, repeats = 5, verboseIter

浏览 0提问于2020-07-31得票数 0

2回答

如何对随机森林进行交叉验证？

python、machine-learning、classification、random-forest、prediction

我正在使用随机森林进行二进制分类。我的数据集以77:23的比例不平衡。我的数据集形状是(977，7) 我最初尝试了以下方法 model = RandomForestClassifier(class_weight='balanced',max_depth=5,max_features='sqrt',n_estimators=300,random_state=24) model.fit(X_train,y_train) y_pred = mode.predict(X_test) 但是，现在我想在随机森林训练中应用交叉验证，然后使用该模型来预测测试数据的y值。所以，我

浏览 5提问于2022-03-25得票数 0

回答已采纳

1回答

如何在PySpark中使用交叉验证提取平均度量

apache-spark、pyspark

我试图在Spark1.6.0中对随机森林执行交叉验证，我发现很难获得评估指标(精确性、召回性、f1.)。我要所有折叠度量的平均值。这可以用CrossValidator和MulticlassClassificationEvaluator获得吗？我只找到了一些示例，在这些示例中，评估稍后将在独立的测试数据集上执行，并使用交叉验证中的最佳模型。我并不打算使用一个训练和测试集，而是使用所有的dataframe (df)来进行交叉验证，让它分裂，然后取平均度量。 paramGrid = ParamGridBuilder().build() evaluator = MulticlassClassific

浏览 1提问于2017-08-04得票数 4

回答已采纳

1回答

是否有必要在使用StratifiedShuffleSplit拆分数据后使用交叉验证？

machine-learning、scikit-learn、cross-validation

我使用StratifiedShuffleSplit来拆分数据，现在我在考虑是否需要再次使用交叉验证来构建分类模型(Logistic回归、KNN、随机森林等)。我对此感到困惑，因为我在Sklearn中阅读了，我得到的印象是，StratifiedShuffleSplit是同时分割数据和交叉验证数据的混合体。

浏览 12提问于2022-09-17得票数 -1

回答已采纳

1回答

如何选择GridSearchCV的最佳参数？

machine-learning、python、algorithms

在一些赋值和黑客操作期间，我使用随机森林和XGBoost等算法创建了几个模型，并使用GridSearchCV找到了参数的最佳组合。但我无法理解的是如何为GridSearchCV选择这些参数。我随机地将参数设置为 params = {"max_depth" : [5, 7, 10, 15, 20, 25, 30, 40, 50,100], "min_samples_leaf" : [5, 10, 15, 20, 40, 50, 100, 200, 500, 1000,10000], "criterion": [&

浏览 0提问于2021-03-01得票数 1

回答已采纳

2回答

如何惩罚假阴性而不是假阳性

python、machine-learning、scikit-learn

从商业角度来看，假阴性导致的成本(真正的金钱)大约是假阳性的十倍。给出我的标准二进制分类模型(logit，随机森林等)，我如何将其合并到我的模型中？我必须改变(权重)损失函数以支持‘首选’误差(FP)吗？如果是这样，如何做到这一点？

浏览 0提问于2018-03-07得票数 18

回答已采纳

3回答

渐进随机森林？

machine-learning、classification、random-forest

我正在考虑使用随机森林来解决分类问题。数据是按顺序来的。我计划使用前N(500)来训练分类器。然后，使用分类器对数据进行分类。它会犯错误，错误有时可以被记录下来。我的问题是:我可以使用这些错误分类的数据来重新训练原始分类器吗？如果我简单地将错误分类的样本添加到大小为N的原始训练集中，那么错误分类样本的重要性将被夸大，因为更正后的分类样本会被忽略。我必须使用所有数据重新训练分类器吗？还有哪些分类器可以进行这种学习？

浏览 1提问于2013-07-08得票数 1

3回答

随机森林分类器- KFold CV调很深的树->过配？

machine-learning、random-forest、cross-validation、class-imbalance

我正在对python中的随机森林进行调优，并想知道我的模型是否/为什么过于合适。数据集描述如下： 1700例阳性病例/ 54000例总病例~ 3.2% (不平衡) 50个数字特征，~450标签/热编码特征(后数据缩减) 10 hold使用85%的数据，15%用于最终测试分类度量= AUC或F1 (由于数据不平衡) 我得到的结果倾向于建议使用非常深的树，即深度18，不限制每次分割的样本数=2(默认)。在这种情况下，列车AUC为99.9%，最大测试AUC为84%。在树的最大深度上，我的分数几乎是单调增加的。考虑到结果和树有多深-我怀疑这个模型太合适了？如果是这样的话，为什么我不观察到在深度和mi

浏览 0提问于2018-06-19得票数 3

1回答

Teste & Score小部件-结果变化？

machine-learning、classification、orange

我对橘子和DM都很陌生。我使用的是Test & Score小部件，如Orange文档示例中所示，并且我注意到，每当我再次运行测试时，Test & Score小部件中显示的结果都会改变。我注意到它只适用于分类树和随机森林分类。 ( 1)这正常吗？为什么这只发生在这两种算法上？ 2)我试图比较一些数据集中预测类的算法。如果每次运行分类树和随机森林的结果发生变化，我应该如何比较呢？如果有人能解释给我听，我会非常感激的。

浏览 2提问于2015-12-04得票数 1

1回答

过拟合与ROC曲线

classification、roc、auc

单看分类器的ROC曲线，是否就可以了解分类器是否过载了？我看到，如果它的AUC太高(例如98%)可能会被过度安装，但它也可能意味着分类器是真的很好。有办法区分这两种情况吗？

浏览 9提问于2015-10-15得票数 3

回答已采纳

1回答

用predict_proba和class_weight进行校准

machine-learning、python、classification、scikit-learn、random-forest

我正在制作一个随机森林分类器来确定一个句子是“正”(1)，“否定式”(-1)还是“中性”(0)。然而，我更喜欢假否定而不是假阳性，也就是说，我更喜欢说一个句子是中性的，即使它不是说一个句子是中性的，更重要的是如果它是否定的。所以我使用predict_proba，比如： def my_pred(rfc, X, weight=0.5): res = rfc.predict_proba(X) if res[0]>weight: return -1 elif res[2]>weight: return 1 return 0 但是我想知道我是否可以使用class_wei

浏览 0提问于2020-11-15得票数 3

1回答

Spark，MLlib:调整分类器的去犯罪阈值

apache-spark、random-forest、logistic-regression、apache-spark-mllib

我尝试使用星火MLlib Logistic回归(LR)和(或)随机森林(RF)分类器来建立模型来描述两类之间的关系，这两个类之间的基数差别很大。其中一套有15万个否定的，另一个只有50000个正面的例子。在使用默认参数对LR和RF分类器进行培训之后，对于这两个分类器，我得到了非常相似的结果，例如，对于以下测试集： Test instances: 26842 Test positives = 433.0 Test negatives = 26409.0 分类器检测： truePositives = 0.0 trueNegatives = 26409.0 falsePositives

浏览 6提问于2015-08-03得票数 7

回答已采纳

1回答

我还能做什么来帮助我的模型我的分类任务？

scikit-learn、multiclass-classification

我有一个分类任务，目前我得到了非常低的精度指标(我的最高精度得分约为20%)。到目前为止，我已经运行了5个模型:二次圆盘分析、logistic回归、knn、随机森林和朴素贝叶斯(高斯，但不久将尝试分类)。我用过GridSearchCV (10倍)。我的数据集有1500个数据点，不超过9个特征。我唯一的虚拟变量涵盖了性别，我已经留下了一个选项，以避免假人陷阱。我的另一个解释变量是年龄组，我对它进行了编码以保持顺序。最后，我的因变量实际上是二进制目标变量的向量(使用sklearn的多输出)。关于因变量的更多颜色:最初的特性是一个问题，它允许6种响应选择，但被调查者可以选择其中的多个。实际上，我

浏览 0提问于2023-02-27得票数 0

回答已采纳