随机森林、SVM和带R的多项Logistic回归

文章/答案/技术大牛

发布

1回答

我对r或任何类型的编码几乎一无所知。我正在上一门需要使用r分析数据的课程。我的最后一个项目是从智能手表下载和划分加速度计数据。我已经成功地做到了这一点。然后我必须运行四个模型，如决策树，随机森林，多项逻辑回归和SMV。我只是让决策树正常工作。这个文件如此之大，有350万个观察值，我不得不选择极小百分比的数据才能在不超时的情况下运行。请解释它，就像你在给一个孩子解

浏览 10提问于2019-12-06得票数 0

回答已采纳

1回答

需要建议，Python中的分类问题:我应该使用决策树、随机森林还是Logistic回归？

python、classification、random-forest、logistic-regression、decision-trees

概述的数据集，我正在工作，考虑一个团队，每年玩一个5场比赛的主场时间表。我的目标是找出那些最有可能在即将到来的赛季中失败的球迷，这意味着他们不更新他们的赛季通行证。这是我的Y变量。这张表是前一年的数据，所以我也有实际的Y值(那些过去和没有更新他们的赛季通行证的人)。第二张是我对即将到来的赛季的预测，关于是否有人会更新他们的赛季通行证。对本年度<

浏览 0提问于2018-03-16得票数 -1

1回答

将KMeans应用于大熊猫DataFrame

python、pandas、k-means

train_test_split stands for: y=newTotalDataset['identifier']问题是当我打印“标签”时，因为它说所有行都属于person 0。标签中的计数器0和1的结果是:计数

浏览 0提问于2018-06-14得票数 0

回答已采纳

2回答

当有多个标签时，分类器很好

classification、methods

我在问自己，在尝试使用多个(>100)标签对数据进行分类时，是否还有比深度人工神经网络更好的方法。有什么建议吗？例如，逻辑回归似乎不合适，因为在它的基本形式中，它只支持两个标签，对吗？

浏览 0提问于2021-11-21得票数 4

1回答

多个分类算法总是以相同的分数准确地预测。这正常吗？如果没有，我应该怀疑什么？

classification、multilabel-classification

对于交叉验证，我使用重复的K-交叉验证.对支持向量机、Logistic回归、随机森林、决策树、K-邻域和朴素贝叶斯等方法进行了实验，并采用了二值相关、分类链和标签幂集变换等方法。我注意到，对于分类链，支持向量机，Logistic回归，随机森林，和K-邻居总是达到相同的子集准确性和hamming损失。对于标签Powerset，SVM</em

浏览 0提问于2018-12-03得票数 0

1回答

选择算法来测试它们对情感分析性能的影响

nlp、logistic-regression、sentiment-analysis

我是一个新兴的数据分析师，并致力于我的第一个广泛的项目，是关于NLP和情绪分析。我使用了随机森林，多元朴素贝叶斯，伯特等模型。然而，我也在尝试实施逻辑回归，并偶然发现了它的代码，但他们没有提到“多项式”。当我在网上阅读时，我发现存在多个Logistic回归。我的问题是:我是用LOGISTIC回归还是多项式LOGISTI

浏览 8提问于2022-09-04得票数 0

1回答

我的模型在任意随机特性下表现得更好。我怎么解释这个？

machine-learning、feature-selection

我用不同的核训练了6种不同的分类器“决策树”、“随机森林”、“Logistic回归”和“SVM”。约有80个因变量，包括分类变量和数值变量。在我的实验中，我添加了一个“随机”列，它是由任意随机数生成的，但是所有模型在验证集和测试集上都表现得更好。对这种现象有什么好的解释吗？

浏览 0提问于2019-09-27得票数 1

1回答

算法选择原理(随机森林与Logistic回归与SVM)

machine-learning、algorithms

我想了解选择ML算法的标准，即在这种情况下选择哪种算法的准则是什么？Logistic回归将被选择，以防我们想建议对y变量的影响对任何x变量的变化。随机森林对混合数据有很好的效果，对于分类数据非常有效。此外，它首先进行特征选择(因此不需要降维)。随机森林因其处理时间长，不适合于高性能、多类别数据的采伐。支持向量机能很好地处理狗对猫图像处理中<e

浏览 0提问于2020-01-07得票数 2

回答已采纳

1回答

如何使用scikit-learn预测具有分类和连续特征的二元结果？

python、r、machine-learning

我需要为分类问题选择模型和机器学习算法的建议。在用R或Python实现时，我不确定从哪里开始。谢谢!

浏览 3提问于2016-07-29得票数 1

1回答

如何使用Spark上的交叉验证对SVM和DT进行数据分割

apache-spark、svm、cross-validation

我在我的项目中使用Spark MLlib。我使用了支持向量机，决策树和随机森林。我已经将数据集分为训练和测试(60%的训练，40%的测试)，并得到了我的结果。我想重复我的工作，但使用交叉验证来分割数据，而不是使用SVM、DT和RF的百分比分割。我怎么能在Spark上做到这一点呢？我找到了几个使用logistic回归和管道进行拆

浏览 48提问于2019-01-01得票数 1

1回答

weka中的多级范畴变量

weka

我是数据挖掘的初学者。我在用weka。该数据集有109个变量，其中许多是具有多个级别(1至8)的名义变量。我的问题是： 1.我是否应该将范畴变量(多达8级)转换为二进制变量或按原样使用？注:我将使用logistic回归，随机森林，朴素贝叶斯算法。

浏览 3提问于2014-10-04得票数 0

回答已采纳

3回答

何时使用随机森林

python、regression、random-forest、logistic-regression

我知道随机森林模型可以用于分类和回归情况。是否有更具体的标准来确定随机森林模型在估计值时比一般回归(线性、拉索等)或Logistic回归进行分类时表现得更好？

浏览 0提问于2019-06-29得票数 5

1回答

支持向量机需要很长时间来进行参数整定。

classification、svm、logistic-regression、random-forest

我在上运行支持向量机、Logistic回归和随机森林。我的训练数据集具有形状(454491，30)。F1 score: 0.9999383944188953我选择支持向量机，因为随机森林容易过度拟合，支持向量机得分优于Logistic回归。我还在数量和时间列上使用了Robust

浏览 7提问于2020-09-11得票数 0

回答已采纳

2回答

如何平衡某个类的样本数量非常多的训练数据集？

machine-learning、dataset、scikit-learn、random-forest、sampling

数据集具有5个类别{0,1,2,3,4}，其中0是非常负的，而4是非常正的。数据集是高度不平衡的，'0': 7072 (4.5%), '1': 27273 (17.4%), '2': 79583 (50.9%), '3': 32927(21%), '4': 9206 (5.8%) 如你所见，2类有近50%的样本，0和5贡献了约10%的训练

浏览 5提问于2014-11-19得票数 1

1回答

非平衡数据集上的Logistic回归与随机林

random-forest、logistic-regression

我有一个不平衡的数据集，其中阳性仅占整个样本的10%。我使用logistic回归和随机森林进行分类。通过对这些模型结果的比较，发现0,1和0，0.6之间的logistic回归结果在概率输出上存在一定的差异。我不能分享数据集，但我怀疑这些算法的工作。随机森林如何产生小于0.6的概率？

浏览 0提问于2020-07-23得票数 1

回答已采纳

4回答

我应该使用决策树或逻辑回归来进行分类吗？

classification、logistic-regression、decision-trees

我有一个包含相同数量的分类变量和连续变量的数据集。如何在决策树和逻辑回归之间决定使用哪种技术？假设logistic回归更适合连续变量，决策树更适合连续变量和范畴变量，这是否正确？

浏览 0提问于2015-06-09得票数 17

回答已采纳

1回答

集合学习Python-随机森林，支持向量机，KNN

python、scikit-learn、svm、random-forest、knn

我试图将随机林分类器、支持向量机分类器和KNN分类器集成起来。在这里，我使用VotingClassifier和GridSearchCV进行集成。如果我尝试使用Logistic回归、随机森林和高斯，代码运行良好。下面是我尝试使用随机森林、KNN和SVM的尝试。X_test) print('Accuracy score : {}%'.format(

浏览 5提问于2021-05-14得票数 0

回答已采纳

2回答

哪种机器学习算法更适合于二进制分类？

classification、binary-classification

我们知道有许多不同类型的分类算法。但是在不同类别的分类算法中，哪些算法适合于二进制分类，哪些算法适用于更多的类，为什么？

浏览 0提问于2021-11-29得票数 2

回答已采纳

1回答

为什么在小数据集中，打包或增强算法比基本算法具有更高的精度？

machine-learning、python、scikit-learn、random-forest、logistic-regression

但是，总的数据集现在大约是520个值。我首先应用了Logistic回归和SVM分类器等基本算法，由于我们都知道，对于不平衡的数据集，精度不是一个很好的精度度量，所以我使用F1评分和回忆评分。在logistic回归分析中，支持向量机的F1评分为78%，0级为80%，0级为近99%，1级为72%，表明该方法是过分拟合的。但令我惊讶的是，我发现兰登森林

浏览 0提问于2018-08-29得票数 1

回答已采纳

5回答

选择二进制分类算法

classification、binary、svm、random-forest、logistic-regression

我有一个二进制分类问题：10个属性，包括二进制、数字和范畴这类问题的最佳选择是哪种算法？默认情况下，我将从SVM (将标称属性值转换为二进制特性)开始，因为它被认为是相对干净且不含噪声的数据的最佳选择。

浏览 0提问于2014-06-15得票数 20

回答已采纳

点击加载更多