当使用默认的'randomForest‘算法进行分类时，为什么终端节点的数量与案例的数量不匹配？

r、statistics、random-forest、proximity

我使用R中的randomForest包，它允许计算邻近矩阵(P)。在对包的描述中，它将参数描述为：“如果调用proximity=TRUE，则输入之间的邻近度量矩阵(基于数据点对位于同一终端节点上的频率)。” 我得到随机森林的邻近矩阵如下： P <- randomForest(x, y, ntree = 1000, proximity=TRUE)$proximity 当我研究P矩阵时，我看到像P(i，j)=0.971014493这样的值，其中i和j是我的训练数据集(x)中的两个数据实例。这样的值是没有意义的，因为当它被1000 (森林中的树数)多的时候，产生的数字不是整数，因此是“频率”。

浏览 4提问于2014-05-20得票数 10

回答已采纳

1回答

R中基于randomForest的树深调谐

r、performance、random-forest

我正在r中使用r命令，我想调整树的深度。但是，没有与randomForest包的树深度相对应的参数。根据我的理解，我可以调优max nodes，但我不知道这两者到底是如何相互关联的。每棵树中的终端节点数是否是每棵树中考虑的变量数的两倍？另外，randomForest不允许直接调优树的深度是否有特定的原因？据我所知，这是校准随机森林模型时需要调整的最重要的超参数。

浏览 2提问于2022-08-29得票数 0

2回答

有没有类似于H2O的“SKLearn _ RFClassifier”的停止轮次的论据？

scikit-learn、random-forest、h2o

我使用h20和r将随机森林转换为使用SciKit Learn的随机森林分类器和python的随机森林。H2O的randomForest模型有一个参数'stopping_rounds‘。有没有一种使用SKLearn随机森林分类器模型在python中做到这一点的方法？我已经看过文档了，所以恐怕我必须对此进行硬编码。

浏览 16提问于2019-10-09得票数 2

1回答

随机森林随着树数的增加而变坏。

r、classification、random-forest

当使用randomForest (在R中)处理分类问题时，我遇到了一些困难。我的R代码，一个图像和数据在这里：观察者呈现一个微弱的图像(contrast=，con)，掩埋在噪声中，或者只是噪声。他评价他的自信(rating)，认为他的脸是存在的。我把rating归类为是/否判断(y)。这张脸要么是倒置的(invert=1)，要么不是在每组100个试验中(一个文件)。我使用对比度(预测矩阵x的第一列)和像素(其余列)来预测y。对于我的应用程序来说，关键是我在最后有一个“重要图像”，它显示了每个像素对决策y的贡献。我有1000个试验(y长度)和4248个pixels+contrast=4249预

浏览 2提问于2015-10-22得票数 0

回答已采纳

1回答

R randomForest:非终端的预测值？

r、random-forest

R randomForest的文档与getTree()方法的输出之间存在差异。声明，对于非终端节点，getTree()中的预测字段的值应为零：预测:对节点的预测；如果节点不是终端，则为0。这是分类方法的情况，但是在回归方法中有非零的连续值： > library(randomForest) > > x <- data.frame(matrix(rnorm(20), nrow=10)) > y <- rnorm(10) > > model <- randomForest(x,y) > getTree(model,k=

浏览 4提问于2015-05-13得票数 2

回答已采纳

1回答

分类或回归算法模型中的相关系数或特征重要性

machine-learning、scikit-learn、classification、regression

我为机器学习创建了我的样本数据，只是为了检查分类和回归模型是如何工作的。我的示例数据有50行，列为Memory、CPU、Responsetime。我使用公式Responsetime生成了Memory*2 + CPU*0.7。现在，当我利用这些数据用不同的算法(如DecisionTree、RandomForest、SVM、NaiveBayes、SGD、LogisticRegression )生成分类模型时，我从模型中得到kappa和相关系数(model.coef_)，并在决策树、随机森林的情况下获得特征重要性。 Memory和CPU返回的系数值与我用来生成这些响应时间值的公式不太接近。在这种

浏览 3提问于2017-05-16得票数 0

1回答

如何理解RandomForestExplainer输出(R包)

r、machine-learning、random-forest

我有下面的代码，它基本上尝试使用Species从iris数据中预测。我真正介入的是找出解释物种分类的最佳特征(变量)。我发现包装是最好的服务目的。 library(randomForest) library(randomForestExplainer) forest <- randomForest::randomForest(Species ~ ., data = iris, localImp = TRUE) importance_frame <- randomForestExplainer::measure_importance(forest) randomForestExpla

浏览 0提问于2018-04-19得票数 12

回答已采纳

1回答

spark.mllib分类模型中实例概率的求取

apache-spark、random-forest、logistic-regression、apache-spark-mllib

我使用spark.mllib.classification.{LogisticRegressionModel，LogisticRegressionWithSGD}和spark.mllib.tree.RandomForest进行分类。使用这些包，我会生成分类模型。只有这些模型预测每个实例的特定类。在Weka中，我们可以得到每个实例属于每个类的确切概率。我们怎么才能用这些包来做呢？在LogisticRegressionModel中，我们可以设置阈值。因此，我创建了一个函数来检查每个点在不同阈值上的结果。但是RandomForest不能这样做(参见)

浏览 1提问于2015-07-05得票数 1

2回答

在python中是否有处理分类数据而不编码的RandomForest实现？

python、r、random-forest、categorical-data、encoding

我正在进行一个具有连续和分类功能的二进制分类项目。我知道RandomForest的R实现可以处理作为因子类型数据传入的分类数据。然而，Python的scikit学习实现需要对分类数据进行编码(例如，一个热的)。我对使用这两种实现获得的结果有什么不同感到好奇，我想知道是否有人知道RandomForest的python实现可以处理分类数据而不进行编码。

浏览 0提问于2020-10-22得票数 1

回答已采纳

1回答

加权随机森林的R包？classwt选项？

r、random-forest

我正在尝试使用随机森林来预测极端不平衡的数据集的结果(1的比率仅为1%甚至更低)。由于传统的randomForest最小化了总体错误率，而不是特别关注正类，这使得传统的randomForest不适用于不平衡数据。因此，我想为少数类别的错误分类(成本敏感学习)分配一个高成本。我读到了一些资源，我们可以在R上使用randomForest的classwt选项，但我不知道如何使用它。除了randomForest函数之外，我们还有其他的选择吗？

浏览 1提问于2015-06-19得票数 0

1回答

如何在使用R进行聚类时正确绘制回归树

r、cluster-analysis

我在尝试构建模型的时候卡住了。我想按年将数据集freeny分类为10个子集。 data(freeny) options(digits=2) year<-as.integer(rownames(freeny)) freeny<-cbind(freeny,year) freeny = freeny[sample(1:nrow(freeny),length(1:nrow(freeny))),1:ncol(freeny)] freenyValues= freeny[,1:5] freenyTargets=decodeClassLabels(freeny[,6]) freeny

浏览 0提问于2013-07-10得票数 1

1回答

randomForestSRC抽样方案

r、random-forest

我正在使用R中的randomForest包对不平衡数据进行建模。结果是一个二元变量，结果(no，yes)的相对频率为(2249(88% )，318 (12%) )。由于不平衡，RF最初预测否，OOB错误率为0%，而yes，OOB错误率为100%。我改变了RF中的采样设计，强制使用所有318个yes结果和318个no结果，使用以下代码从可能的2249中随机采样。OOB错误率变为合理的44%为否，12%为是。 rf1 <- randomForest(binary.outcome ~ ., data = data, strata = data$bina

浏览 0提问于2017-11-06得票数 2

1回答

random-forest、decision-tree

根据https://cran.r-project.org/web/packages/randomForest/randomForest.pdf的说法，分类树是完全增长的，这意味着节点大小= 1。但是，如果树真的增长到最大值，那么每个终端节点不应该包含单个案例(数据点、物种等)吗？如果我运行： library(randomForest) data(iris) #150 cases set.seed(352) rf <- randomForest(Species ~ ., iris) hist(treesize(rf),main ="number of nodes") 我可

浏览 12提问于2020-11-08得票数 0

回答已采纳

1回答

科学知识学习在多类分类中默认使用1-VS-Rest吗？

python、machine-learning、scikit-learn、multiclass-classification

我正在处理一个多类问题(4个类)，我试图用Python来解决这个问题。我看到我有三个选择：我简单地实例化了一个分类器，然后用训练来拟合，用测试来评价；分类器= sv.LinearSVC(random_state=123) classifier.fit(Xtrain，ytrain) classifier.score(Xtest，ytest) 我将实例化分类器“封装”在一个OneVsRest对象中，生成一个用于训练和测试的新分类器；分类器= OneVsRestClassifier(svm.LinearSVC(random_state=123)) classifier.fit(Xtr

浏览 2提问于2018-08-28得票数 5

回答已采纳

2回答

如何用机器学习算法设置多个类？

machine-learning、svm、random-forest、xgboost、mlp

我使用XGboost、Randomforest(sklearn)、SVM(sklearn)和MLPclassifier(sklearn)作为分类器。我想为多标签类设置这些模型。我该怎么做？ import xgboost as xgb from sklearn.svm import SVC from sklearn.neural_network import MLPClassifier from sklearn.ensemble import RandomForestClassifier xgb.XGBClassifier() SVC() MLPClassifier() RandomFores

浏览 1提问于2018-11-30得票数 0

回答已采纳

1回答

为什么要比较多个机器学习算法，然后决定使用哪种算法进行微调？

machine-learning、random-forest、xgboost、algorithms、metric

我有个问题。有一个数据集A，它处理一个分类问题。对于该数据集，定义并计算了几种不同的基线算法。另外，采用Logistic回归模型、XGBoost模型和RandomForest模型。现在我的问题是，为什么使用不同的算法(Logistic回归，XGBoost和RandomForest)，并调查哪一个是更好的算法？这是因为这些算法有不同的优点，并且根据数据集表现得更好吗？ Algorithm Accuracy Precision Recall F1-Score Baseline 1

浏览 0提问于2022-10-18得票数 0

回答已采纳

1回答

R“对象中无森林成分”中的随机森林预测误差

r、machine-learning、random-forest、raster

我试图使用随机森林回归器对光栅堆栈进行分类，但是错误不允许预测"area_pct"，难道我没有对模型进行适当的训练吗？ d100是我的数据集，包含预测变量d100[,4:ncol(d100)]和预测变量d100["area_pct"]。 #change na values to zero d100[is.na(d100)] <- 0 set.seed(100) #split dataset into training (70%) and testing (30%) id<- sample(2,nrow(d100), replace = TRUE,

浏览 1提问于2022-08-12得票数 0

1回答

如何用python中的新数据对AdaBoostClassifier进行再培训？

python-3.x、scikit-learn、adaboost

场景：今天用过去1周的数据训练AdaBoostClassifier，下周需要用新的1周数据训练现有的训练分类器。对于Randomforest，我使用的是warm_start=True。不直接支持AdaBoostClassifier的地方。

浏览 3提问于2020-01-20得票数 0

回答已采纳

1回答

R:在randomForest中使用bigmemory库进行分类

r、machine-learning、data-mining、r-bigmemory

有没有人能够使用randomForest和bigmemory库设置分类(而不是回归)。我知道“公式方法”不能使用，我们必须求助于"x=predictors，y=response方法“。似乎大内存库无法处理具有分类值的响应向量(毕竟它是一个矩阵)。在我的例子中，我有两个级别，两个级别都表示为字符。根据bigmemory文档...“数据框会将字符向量转换为因子，然后将所有因子转换为数值因子级别。” 有什么建议的变通方法让randomForest分类与bigmemory一起工作吗？ #EXAMPLE to problem library(randomForest) library(bigm

浏览 5提问于2012-04-29得票数 5

1回答

R PMML类分布

r、random-forest、treemodel、pmml

在尝试使用PMML包将R分类器导出到pmml时，我注意到树中某个节点的类分布没有导出。 PMML通过ScoreDistribution元素支持这一点。在PMML中是否有这样的信息？我想用另一个依赖于这些信息的工具来阅读PMML。我在做这样的事情： library(randomForest) library(pmml) iris.rf <- randomForest(Species ~ ., data=iris, importance=TRUE,proximity=TRUE) pmml(iris.rf)

浏览 3提问于2014-02-24得票数 2

回答已采纳

1回答

如何使用物料编号作为机器学习的特征？

machine-learning、classification、feature-selection

我有个问题。我想使用分类算法。为此，我有一个列materialNumber，就像列的名称表示材料编号一样。我如何使用它作为我的机器学习算法的一个特性？我不能使用它们作为一个热Enconding矩阵，因为有太多不同的材料数(~4500个唯一的材料数)。如何在分类算法中使用此列？我需要标准化/规范化吗？我想使用RandomForest分类器。 customerId materialNumber 0 1 1234.0 1 1 4562.0 2 2 12

浏览 14提问于2022-06-07得票数 0

1回答

如何获取终端节点中的"n“

library("caret") library("randomForest") library("party") library("tree") library("rpart") library("rpart.plot") library("survAUC") library("survival") options(digits=4) survivalTree<-ctree(Surv(survData$user_age,survData$is_user

浏览 4提问于2015-11-08得票数 0

回答已采纳

1回答

如何计算落在树的每个节点上的观测值

r、tree、classification、decision-tree

我目前正在处理MMST包中的葡萄酒数据。我已经将整个数据集分为训练和测试，并构建了一个树，如下所示： library("rpart") library("gbm") library("randomForest") library("MMST") data(wine) aux <- c(1:178) train_indis <- sample(aux, 142, replace = FALSE) test_indis <- setdiff(aux, train_indis) train <- wine[t

浏览 1提问于2012-12-04得票数 2

回答已采纳

4回答

在R中使用randomForest时出现类型不匹配错误

r、error-handling、random-forest、kaggle

我试图在R中使用随机森林来对一些kaggle数据进行分类，但每当我尝试使用我创建的模型时，我都会得到以下错误。 Error in predict.randomForest(fit, newdata = test, type = "class") : Type of predictors in new data do not match that of the training data 我完全不知道这个错误的原因，谷歌也帮不了太多的忙。任何帮助或见解都将不胜感激。下面给出了简单的代码片段，它是对kaggle问题之一的响应。 fit = randomForest(as.fa

浏览 0提问于2013-04-23得票数 0

1回答

R中随机森林的类重要性

r、classification、random-forest

我在R中使用randomForest pkg基于11个数值预测器来预测二进制类。在Hit或Miss这两个类中，Hit类更重要，即我想知道正确预测Hit的次数。有没有办法让Hit在训练随机森林时具有更高的重要性？目前，经过训练的随机森林仅正确预测了7%的命中案例，并且肯定希望得到改进。

浏览 1提问于2015-03-17得票数 1

1回答

为什么决策树显示了正确的分类，而一些实例却被错误分类

classification、weka、decision-tree、prediction

我正在使用WEKA，10折交叉验证或拆分66%来创建训练和测试集。我使用c4.5 (J48)作为分类器。我在我的结果中发现一些实例被错误分类，但是，当我可视化树时，我看到基于树的实例应该已经被正确分类！当测试集是相同的训练集时，我看不到这一点。如果分类器决定创建这样一棵树，为什么一些实例没有基于这棵树进行分类？提前谢谢。

浏览 0提问于2014-10-22得票数 0

1回答

R (randomForest)：ntree =1无论我如何更改它

r、random-forest

我使用randomForest包进行了随机森林分类。当它完成时，我在分类器上输入了汇总()，当我被告知默认值为500时，ntree参数似乎等于1，并且可以在randomForest的参数中手动更改它，但我尝试了，但没有成功。我还用另一个数据集尝试过，我也遇到了同样的问题。有人知道会发生什么事吗？

浏览 1提问于2017-05-16得票数 1

回答已采纳

2回答

我们如何在XGBoost、RandomForest和决策树之间做出决定？

machine-learning、random-forest、decision-trees、xgboost

在决定在处理特定数据集时应该使用哪种技术时，我们应该考虑什么？我知道这没有任何硬性规定。在其他情况下，我们是否只在数据集和RandomForest中有很多特性时才使用RandomForest？还是我们应该打和试验，并找到谁给我们带来更好的结果，每次？

浏览 0提问于2020-07-30得票数 5

回答已采纳

4回答

我们可以在超级分类器结构下创建多少个节点？

hyperledger-fabric、blockchain、hyperledger、ibm-blockchain

在配置超级分类账结构时，是否有创建节点数量的限制？我已经看过了下面的答案，但我不清楚他在解释什么。当我说节点的数量时，它可以是涉众(标记为组织)的数量，也可以是对等节点或背书节点的数量。

浏览 0提问于2018-04-11得票数 0

回答已采纳

1回答

如何从R中的RandomForest中提取节点大小的默认值

r、random-forest

我知道如何更改nodesize (终端节点中的最小行数)在RandomForest中的值。但是，我想知道，给定一个RandomForest模型，nodesize的值是多少。 require(party) require (data.table) require (e1071) require (randomForest) dat1 <- fread('https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data',stringsAsFactors=T) ## split da

浏览 0提问于2018-12-02得票数 1

回答已采纳

1回答

如何确定R中随机森林中的节点数

r、random、nodes

我使用randomForest包来执行二进制分类。请问randomForest()是如何确定每棵树的节点数的？我认为节点的数量保存在模型$forest$nrnodes中。我说的对吗？在我的数据集中，我有10,000个正样本和70,000个负样本。除了树的数量50、100、200和500之外，我使用默认参数构建了几个模型。他们的表现非常相似。每个模型的节点数量也非常相似，大约为1400个。能解释一下这1400是如何计算出来的吗？哪个参数用于控制每棵树中的节点数？任何建议都将不胜感激！

浏览 0提问于2016-01-20得票数 2

1回答

从决策树中获取分类概率

python、machine-learning、decision-tree、cart-analysis

我正在实现基于CART算法的决策树，我有一个问题。现在我可以对数据进行分类，但我的任务不仅仅是对数据进行分类。我希望在终端节点上有正确分类的概率。例如。我有包含A和B类数据的数据集，当我将某个类的实例放到我的树上时，我想知道实例属于A类和B类的概率有多大。如何改进购物车在终端节点中的概率分布？

浏览 2提问于2014-04-24得票数 0

回答已采纳

3回答

Perl模式的形式化语言表达

regex、perl、computer-science

经典正则表达式等价于有限自动机。目前大多数“正则表达式”的实现并不是严格意义上的正则表达式，而是更强大。一些人已经开始使用术语“模式”而不是“正则表达式”来更准确。可以用现代“正则表达式”(如Perl 5中支持的模式)描述的内容的正式语言分类是什么？更新:所谓“Perl5”，我指的是在Perl5中实现的模式匹配功能，并被许多其他语言(C#、JavaScript等)采用，而不是任何特定于Perl的功能。例如，我不想考虑在模式中嵌入Perl代码的技巧。

浏览 1提问于2009-12-07得票数 11

回答已采纳

2回答

你能帮助我线性激活我的简单分类器神经网络在pyBrain？

python、artificial-intelligence、neural-network、classification

我正在使用一个名为pyBrain的Python库尝试一个非常简单的例子，但我无法让它工作。很可能有一个很简单的原因，所以，我希望有人能帮忙！ 1)简单的异或工作得很好。 2)将数字时钟上显示的led信号与数字输出值进行分类，效果良好。例如： [ 1. 1. 1. 0. 1. 1. 1.] => [ 0.] [ 0. 0. 1. 0. 0. 1. 0.] => [ 1.] [ 1. 0. 1. 1. 1. 0. 1.] => [ 2.] [ 1. 0. 1. 1. 0. 1. 1.] => [ 3.] [ 0. 1

浏览 1提问于2011-01-18得票数 2

回答已采纳

1回答

随机森林变量重要性Z评分

random-forest

我真的很担心RandomForest算法是如何内部工作的，袋外误差可变重要性 Z分数把这三个都告诉我？怎么算？它控制了什么？

浏览 0提问于2016-05-13得票数 1

1回答

rpart摘要:图中缺少的变量

r、decision-tree、rpart

我有一个包含9个特性的数据集，从x1到x9。目标变量是Target (我有分类问题)。守则： # Splitting the dataset into the Training set and Test set # install.packages('caTools') library(caTools) set.seed(123) split = sample.split(dataset$Target, SplitRatio = 0.75) training_set = subset(dataset, split == TRUE) test_set = subset(datas

浏览 1提问于2021-05-14得票数 1

回答已采纳

1回答

R randomForest组合模型-错误消息

r、random-forest

这就是我遇到的问题。我希望有人能解释一下为什么我有一个很大的数据集，我正在使用它来预测一个分类值- L，M，H-在原始的data.frame中它是一个因子。训练集很大，所以我没有足够的内存来对其进行训练-所以我从我的训练数据集中抽取了一个样本并创建了一个randomForest。然后我创建了一个不同的随机样本，并创建了第二个森林，....它们都有相似的性能，这是一个令人担忧的问题我在randomForest中找到了combine函数，并决定使用它来组合我的模型。然后，我需要使用新模型对训练集进行评分，以获得OOB估计，然后对我的验证样本进行相同的评分。我对测试集的预测有问题。我基本

浏览 0提问于2013-04-30得票数 0

1回答

为什么R中的h2o.randomForest比randomForest包具有更好的预测能力

r、random-forest、h2o

setwd("D:/Santander") ## import train dataset train<-read.csv("train.csv",header=T) dim(train) summary(train) str(train) prop.table(table(train2$TARGET)) stats<-function(x){ length<-length(x) nmiss<-sum(is.na(x)) y<-x[!is.na(x)] freq<-as.data.frame(ta

浏览 0提问于2017-05-20得票数 3

5回答

R中随机森林的并行执行

r、parallel-processing

我在R中并行运行随机森林 library(doMC) registerDoMC() x <- matrix(runif(500), 100) y <- gl(2, 50) 并行执行(耗时73秒) rf <- foreach(ntree=rep(25000, 6), .combine=combine, .packages='randomForest') %dopar% randomForest(x, y, ntree=ntree) 顺序执行(耗时82秒) rf <- foreach(ntree=rep(25000, 6), .combine=combin

浏览 3提问于2013-01-01得票数 31

回答已采纳

1回答

支持多标签分类的算法

machine-learning、scikit-learn、multilabel-classification

在sklearn的文档中，它指出有几种算法固有地支持多标签分类，例如RandomForest或MLP：https://scikit-learn.org/stable/modules/multiclass.html。它是来自于模型的实现还是结构？此外，它是如何为这些算法工作的？是单打独斗的策略还是别的什么？谢谢。

浏览 0提问于2019-06-06得票数 2

回答已采纳

1回答

使用weka API对高维int向量进行分类的最佳方法是什么？

java、classification、weka、bayesian、decision-tree

我有一些高维(30000维)整数向量。我有两门课:是的，不是。我有6000个是类的样本和50000个非级类的样本.我想训练一个分类器，将来自动地将新的样本分类到这些类中的一个。我知道如何使用Weka，但我不确定使用哪种算法。有人能就以下问题给我建议吗？向量是过高的维数，还是我有太多的样本来有效地在Weka完成这个工作？在我开始之前，我应该降低维度吗？我可以使用什么算法来识别特征向量中的重要元素？哪种分类器最适合对这类数据进行分类？我认为决策树应该工作得很好，但也许朴素的贝叶斯训练更快，是吗？既然每个元素都必须在weka中有一个名称，那么我如何为我的30000个特性分配

浏览 1提问于2013-09-12得票数 2

1回答

使用“randomForest”包的不同变量培训/测试集

r、random-forest

假设我有一个分类问题，并且希望使用R中的randomForest包来解决这个问题。在我的培训集中，我想添加第三个变量，var3，它是var1和var2的产物。因此，培训集将由var1、var2、var3和类变量组成。但是，测试集中不存在此var3，因此，当我要测试模型时，randomForest会给出一个错误： random forest Error in eval(expr, envir, enclos) : object var3 not found 有什么办法可以绕过这件事吗？

浏览 3提问于2015-05-09得票数 2

回答已采纳

3回答

C++集合:计算小于某个值的元素

c++、performance、algorithm、stl、complexity-theory

假设我有一个STL set <int> s和一个int x，我如何计算s中小于x的元素的数量我正在寻找一种O(log n) (或类似的；任何比O(n)更好的合理的解决方案)；我已经知道std::distance(s.begin(), s.lower_bound(x))了，但我相信那是O(n)，因为set不是随机访问的。

浏览 3提问于2013-03-10得票数 30

回答已采纳

1回答

用于多项式分类的h2o随机森林计算均方误差

classification、random-forest、multinomial、h2o

为什么h2o.randomforest在训练多项式分类问题时，要计算袋外样本的均方误差？我也用h2o.randomforest做过二分类，它用来在out of bag sample和training上计算AUC，但对于多分类随机森林计算均方误差，这似乎很可疑。请看这张截图。我的目标变量是一个包含4个因子水平model1，model2，model3和model4的因子。在屏幕截图中，您还会看到这些因素的混淆矩阵。有人能解释一下这种行为吗？

浏览 0提问于2015-10-25得票数 0

1回答

XGBOOST比随机森林快吗？

python-3.x、machine-learning

我正在做kaggle的课内挑战，了解到XGBoost比RandomForest更快，但在实施时更慢。我想问一下XGBoost什么时候变得更快，什么时候RandomForest？？我是机器学习新手，需要提前了解你的help.Thanking

浏览 45提问于2019-02-01得票数 0

2回答

多类分类配置

classification、keras

1)对于多类分类问题，合适的激活和损失函数是什么？是否是为了：最多2类\rightarrow二进制分类\rightarrow激活:乙状结肠\rightarrow丢失: binary_crossentropy 来自3类\rightarrow多级分类\rightarrow激活: Softmax \rightarrow损耗: categorical_crossentropy 如果是的话..。 “狗和猫”是二元分类，而“狗、猫和马”是多类分类？如果我们有两个类，那么我们不能输出预测结果的概率范围？ ( 2)对于多类分类，最后一层稠密层是否必须有与类数相等的节点数？在下面的例子中有两个类(狗和猫

浏览 0提问于2019-12-09得票数 1

4回答

用于2种XML无序比较的XMLs工具

json、xml、diff

我正在寻找一个diff工具，它允许我比较2个xml (或json)文件，忽略其元素的顺序。示例： <Node> <Child name="Alpha"/> <Child name="Beta"/> <Child name="Charlie"/> </Node> <Node> <Child name="Beta"/> <Child name="Charlie"/> <

浏览 2提问于2018-03-05得票数 3

回答已采纳

3回答

包含分类变量和连续变量的数据集的类PCA分析

dataset、statistics

我有一个包含一个分类变量和多个连续变量的数据集。分类变量被编码为离散整数，而连续变量只是浮动的范围。我相信，我的数据集中的方差几乎完全可以用单一的范畴变量和许多连续变量中的一个来描述。为了证明这一点，我有兴趣使用PCA，但我不确定在考虑分类数据时使用的最佳方法。有什么建议吗？

浏览 0提问于2018-09-19得票数 1

1回答

用德语Umlaut不区分Java Regex大小写

java、regex

我想在文本中找到/替换一个单词。示例一词是“T-聚于聚”。以下是代码： final String regexX = "TÜTÜ"; final String string = "dsad dasdasd dasd \n" + "dsds\n" + " dd \n" + "sadsd.sdasd. \n" + " universität \n" + " blö

浏览 2提问于2019-11-21得票数 1

回答已采纳

2回答

大量的属性最佳分类器

machine-learning、data-mining

我有一个由940个属性和450个实例构建的数据集，我正在努力寻找最好的分类器来获得最好的结果。我已经使用了WEKA推荐的每个分类器(例如J48、costSensitive、多个分类器的组合等)。我找到的最好的解决方案是J48树，准确率为91.7778 %，混淆矩阵为： 394 27 | a = NON_C 10 19 | b = C 我想在TN和TP的混淆矩阵中获得更好的重用，每种方法至少有90%的准确性。我能做些什么来改善这一点(比如扫描所有选项的长时间运行分类器？我没有想过的其他想法？下面是这个文件：请帮帮我！！

浏览 0提问于2013-12-20得票数 0