如何使用Sklearn处理随机林的字符列

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

2回答

、、

我有一个dataframe，它有一个列'title'，'content‘。关于报纸上的一篇文章。我想在上面做一个随机森林，以预测一个变量:负值，正值或中性。因此，我的特征变量将是title和content，而我的探索性变量将是例如"sentiment“(否定、肯定或中性)。问题是我只有字符列。我不能做一些编码作为一个热编码，因为所有的原始是不同的，所以它将有许多不同的编码，因为有行。我不知道该

浏览 23提问于2021-06-25得票数 0

回答已采纳

1回答

如何检查一个对象是RandomizedSearchCV还是RandomForestClassifier？

、、、、

我有一些使用创建的分类器，还有一些直接作为创建的分类器。随机林返回类型sklearn.ensemble.forest.RandomForestClassifier，以及使用gridSearch返回类型sklearn.grid_search.RandomizedSearchCV创建的随机林。我正在尝试以编程方式检查估计器的类型(以确定是否需要在上使用)，但似乎找不到

浏览 0提问于2015-09-14得票数 0

回答已采纳

1回答

学习随机森林并与连续特征相匹配

有人知道python如何学习随机森林实现如何在拟合过程中处理连续变量吗？我很想知道它是否进行了任何类型的绑定(如果是的话，它是如何进行绑定的)，还是连续变量只是作为一个范畴变量来处理呢？而且，如果有人知道的话，我愿意使用一些R实现。

浏览 0提问于2016-10-19得票数 2

回答已采纳

1回答

通过编码不进行分类转换的分类算法

、、、

我有一组48个特征列和一个二进制分类目标。在处理分类问题时，我可以加载所有的算法，如线性算法、逻辑算法、knn算法、随机林算法和增强分类器，这些算法都是通过一次热编码或类似的从分类到数值的变换来完成的。但是，在运行像随机森林和决策树这样的算法时，没有从分类到数值的任何转换，我面临的错误是“ValueError:无法将字符串转换为浮动.” 我正在尝试一个基本的模式，没有任何变化，请指

浏览 0提问于2019-08-19得票数 0

回答已采纳

2回答

孤立点检测中的隔离林与鲁棒随机采伐林

、、、、

我正在研究不同的离群点检测方法。我偶然看到sklearn的隔离森林的实现和Amazon的RRCF (健壮的随机剪切森林)的实现。这两种方法都是基于决策树的集成方法，目的是隔离每一个点。然而，即使在查看了算法的原始论文之后，我也无法准确地理解这两种算法之间的区别。他们的工作方式有什么不同？其中一个比另一个更有效率吗？编辑:我是添加到研究论文的更多信息的</e

浏览 3提问于2020-07-27得票数 6

回答已采纳

2回答

在应用Lasso之前，应该省略高度相关的特征吗？

、、、、

如果您能让我知道在使用Lasso logistic回归(L1)进行特征选择之前是否应该省略高度相关的特性，我将非常感激。正则化是处理共线性(特征间高度相关)的一种非常有用的方法。然而，这个内核 (通过引用维基百科)指出，保持模型中

浏览 0提问于2018-08-20得票数 1

1回答

(Py-)火花结构流星火列车模型

、、、

我正在使用Spark3.x，我不知道如何训练一个模型，例如，使用星火结构化流，而不是火花流的随机森林分类器。我已经设置了所需的流来处理用于培训的微批，我已经设置了spark.ml管道，但是我错过了一个函数或类似于partial fit的东西。由于spark基本上是为大数据和分布式ml创建的，所以必须有这样的方法(training_data, test_data) = dat

浏览 5提问于2022-02-23得票数 0

回答已采纳

2回答

我应该使用哪一种ML算法来跟踪分类用例，以及为什么？

、、、

我有表格格式的数据，共有3列。一个列表示标签，另两个列是特性。因此，这样的30行(1行包含2个特性和1个标签)构成一组数据，所有30行都具有相同的数据集。在这30行中，可能有一些特性模式。可能会有更多这样的30行集(对于30行，标签将相同)。所以会有6到7个标签或等级。我想要算法从30行(一组)预测一个标签。我应该选择哪种算法，如何对数据进行预处理？

浏览 0提问于2020-04-07得票数 1

1回答

如何将.csv文件转换为不同类型的numpy数组

、、、、

我有一个.csv矩阵，我想在一个numpy数组中进行转换，所以我找到了以下内容：.csv delimiter= ';')更多解释：我需要使用这个文件来创建一个树(使用sklearn和随机林

浏览 10提问于2016-03-02得票数 1

回答已采纳

1回答

scikit学习拟合功能分类

我正在使用适合功能的分类训练在科学知识-学习。例如，在使用随机林时，通常使用以下类型的代码：from sklearn.ensemble import RandomForestClassifier as RFforest=forest.fit(TrainingX,Trainingy) 不幸的是，在使用Python

浏览 2提问于2016-01-16得票数 1

1回答

在spark分类器中处理null/NaN值

、、、

我有一组分类列(字符串)，我正在解析并转换成特性向量，以传递给mllib分类器(随机林)。谢谢

浏览 0提问于2015-10-07得票数 3

回答已采纳

2回答

滑雪场随机森林

、、

我试着用sklearn的随机森林分类器包来拟合随机森林模型。但是，我的数据集由具有字符串值('country')的列组成。这里的随机林分类器不接受字符串值。它需要所有特征的数值。我想用一些虚拟变量来代替这样的列。但是，我搞不懂现在的特色重要情节会是什么样子。会有诸如country_India、country_

浏览 0提问于2016-04-03得票数 0

回答已采纳

1回答

如何将MultiOutputClassifier应用于朴素贝叶斯算法的数据集

、、、

，我被要求查看这个问题的多输出分类。首先，我试着遵循网站上给出的示例代码，from sklearn.multioutput importMultiOutputClassifierfrom sklearn.utils import shuffle我试图在我的y_trai

浏览 0提问于2020-12-27得票数 2

回答已采纳

1回答

我是否可以使用RandomForestClassifier创建随机森林，它将由相同的树组成？

、、、、

根据对这问题的回答，我应该能够使用bootstrap = False, max_features = None, random_state = 42参数构建一个具有所有相同树的随机森林。我写了测试它的快速代码，似乎创建了不同的树。是否有可能使用RandomForestClassifier创建一个随机森林，从而产生相同的树？

浏览 0提问于2018-07-05得票数 3

回答已采纳

1回答

为什么隔离森林实现将它变成一个有监督的学习问题(目标的随机值)？

、、

我正在查看python和R中隔离森林的各种实现，它们都在python中学习，在R中使用y变量，在ExtraTrees回归器中使用一个y变量。既然隔离森林是无人监管的，我想知道为什么它会变成一个监督问题？当在以前看不见的数据集上得分时，这不是一个问题吗？例如，sklearn (python) 第248项具有这样的功能。

浏览 0提问于2020-09-22得票数 4

3回答

多类问题单热编码类标签的正确方法

、、、、

我有一个多类的分类问题，我们把它们称为A、B、C和D。我的数据的形状如下：[[1,0,0,0], [0,1,0,0], ...]并且有这个形状当我尝试使用它作为分类器输入时，问题就出现了。模型分别预测这四个标签中的每一个，这意味着它也能够产生像我不想要<e

浏览 1提问于2020-04-14得票数 1

回答已采纳

1回答

酸洗随机森林模型的混淆矩阵

、、、、

是否可以仅使用保存为pickle dump的模型来重新构造袋外验证的完整混淆矩阵？mymodel.oob_score_报告的OOB得分为0.75682 我找到了可以为这个模型提取预测标签的here，如下所示： pred_train = numpy.argmax(mymodel.oob_decision_function_,axis=1) 但是列车标签是否也保存在模型文件中的某个位置？

浏览 18提问于2021-04-13得票数 1

1回答

为什么随机森林总是给出1.0的预测分数？

、、、

我正在尝试测试以下分类器的预测分数：- k neighbors- naïve bayesX_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)- load_iris- load_wi

浏览 5提问于2020-04-12得票数 0

回答已采纳

1回答

为什么这种随机森林情感分类的准确性如此之低？

、、、

我想使用RandomForestClassifier进行情感分类。X包含字符串文本中的数据，因此我使用LabelEncoder来转换字符串。Y包含数字数据。我的代码是：import numpy as npfrom sklearn.ensembleimport *from

浏览 2提问于2022-01-12得票数 1

回答已采纳

1回答

如何在科学学习中的随机森林分类器中设置子样本大小？特别是对于不平衡的数据

、、

目前，我正在为我的不平衡数据在Sklearn中实现RandomForestClassifier。我不太清楚RF是如何在Sklearn中准确地工作的。我所关注的问题如下： “RandomForestCla

浏览 4提问于2017-07-06得票数 7

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云