腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何
使用
Sklearn
处理
随机
林
的
字符
列
、
、
我有一个dataframe,它有一个
列
'title','content‘。关于报纸上
的
一篇文章。我想在上面做一个
随机
森林,以预测一个变量:负值,正值或中性。因此,我
的
特征变量将是title和content,而我
的
探索性变量将是例如"sentiment“(否定、肯定或中性)。问题是我只有
字符
列
。我不能做一些编码作为一个热编码,因为所有的原始是不同
的
,所以它将有许多不同
的
编码,因为有行。 我不知道该
浏览 23
提问于2021-06-25
得票数 0
回答已采纳
1
回答
如何
检查一个对象是RandomizedSearchCV还是RandomForestClassifier?
、
、
、
、
我有一些
使用
创建
的
分类器,还有一些直接作为创建
的
分类器。
随机
林
返回类型
sklearn
.ensemble.forest.RandomForestClassifier,以及
使用
gridSearch返回类型
sklearn
.grid_search.RandomizedSearchCV创建
的
随机
林
。我正在尝试以编程方式检查估计器
的
类型(以确定是否需要在上
使用
),但似乎找不到
浏览 0
提问于2015-09-14
得票数 0
回答已采纳
1
回答
学习
随机
森林并与连续特征相匹配
有人知道python
如何
学习
随机
森林实现
如何
在拟合过程中
处理
连续变量吗?我很想知道它是否进行了任何类型
的
绑定(如果是的话,它是
如何
进行绑定
的
),还是连续变量只是作为一个范畴变量来
处理
呢?而且,如果有人知道的话,我愿意
使用
一些R实现。
浏览 0
提问于2016-10-19
得票数 2
回答已采纳
1
回答
通过编码不进行分类转换
的
分类算法
、
、
、
我有一组48个特征
列
和一个二进制分类目标。在
处理
分类问题时,我可以加载所有的算法,如线性算法、逻辑算法、knn算法、
随机
林
算法和增强分类器,这些算法都是通过一次热编码或类似的从分类到数值
的
变换来完成
的
。但是,在运行像
随机
森林和决策树这样
的
算法时,没有从分类到数值
的
任何转换,我面临
的
错误是“ValueError:无法将
字符
串转换为浮动.” 我正在尝试一个基本
的
模式,没有任何变化,请指
浏览 0
提问于2019-08-19
得票数 0
回答已采纳
2
回答
孤立点检测中
的
隔离
林
与鲁棒
随机
采伐
林
、
、
、
、
我正在研究不同
的
离群点检测方法。我偶然看到
sklearn
的
隔离森林
的
实现和Amazon
的
RRCF (健壮
的
随机
剪切森林)
的
实现。这两种方法都是基于决策树
的
集成方法,目的是隔离每一个点。然而,即使在查看了算法
的
原始论文之后,我也无法准确地理解这两种算法之间
的
区别。他们
的
工作方式有什么不同?其中一个比另一个更有效率吗?编辑:我是添加到研究论文
的
更多信息
的</e
浏览 3
提问于2020-07-27
得票数 6
回答已采纳
2
回答
在应用Lasso之前,应该省略高度相关
的
特征吗?
、
、
、
、
如果您能让我知道在
使用
Lasso logistic回归(L1)进行特征选择之前是否应该省略高度相关
的
特性,我将非常感激。正则化是
处理
共线性(特征间高度相关)
的
一种非常有用
的
方法。然而,这个内核 (通过引用维基百科)指出,保持模型中
浏览 0
提问于2018-08-20
得票数 1
1
回答
(Py-)火花结构流星火列车模型
、
、
、
我正在
使用
Spark3.x,我不知道
如何
训练一个模型,例如,
使用
星火结构化流,而不是火花流
的
随机
森林分类器。我已经设置了所需
的
流来
处理
用于培训
的
微批,我已经设置了spark.ml管道,但是我错过了一个函数或类似于partial fit
的
东西。由于spark基本上是为大数据和分布式ml创建
的
,所以必须有这样
的
方法(training_data, test_data) = dat
浏览 5
提问于2022-02-23
得票数 0
回答已采纳
2
回答
我应该
使用
哪一种ML算法来跟踪分类用例,以及为什么?
、
、
、
我有表格格式
的
数据,共有3
列
。一个列表示标签,另两个
列
是特性。因此,这样
的
30行(1行包含2个特性和1个标签)构成一组数据,所有30行都具有相同
的
数据集。在这30行中,可能有一些特性模式。可能会有更多这样
的
30行集(对于30行,标签将相同)。所以会有6到7个标签或等级。我想要算法从30行(一组)预测一个标签。我应该选择哪种算法,
如何
对数据进行预
处理
?
浏览 0
提问于2020-04-07
得票数 1
1
回答
如何
将.csv文件转换为不同类型
的
numpy数组
、
、
、
、
我有一个.csv矩阵,我想在一个numpy数组中进行转换,所以我找到了以下内容:.csv delimiter= ';')更多解释:我需要
使用
这个文件来创建一个树(
使用
sklearn
和
随机
林
浏览 10
提问于2016-03-02
得票数 1
回答已采纳
1
回答
scikit学习拟合功能分类
我正在
使用
适合功能
的
分类训练在科学知识-学习。例如,在
使用
随机
林
时,通常
使用
以下类型
的
代码:from
sklearn
.ensemble import RandomForestClassifier as RFforest=forest.fit(TrainingX,Trainingy) 不幸
的
是,在
使用
Python
浏览 2
提问于2016-01-16
得票数 1
1
回答
在spark分类器中
处理
null/NaN值
、
、
、
我有一组分类
列
(
字符
串),我正在解析并转换成特性向量,以传递给mllib分类器(
随机
林
)。 谢谢
浏览 0
提问于2015-10-07
得票数 3
回答已采纳
2
回答
滑雪场
随机
森林
、
、
我试着用
sklearn
的
随机
森林分类器包来拟合
随机
森林模型。但是,我
的
数据集由具有
字符
串值('country')
的
列
组成。这里
的
随机
林分类器不接受
字符
串值。它需要所有特征
的
数值。我想用一些虚拟变量来代替这样
的
列
。但是,我搞不懂现在
的
特色重要情节会是什么样子。会有诸如country_India、country_
浏览 0
提问于2016-04-03
得票数 0
回答已采纳
1
回答
如何
将MultiOutputClassifier应用于朴素贝叶斯算法
的
数据集
、
、
、
,我被要求查看这个问题
的
多输出分类。首先,我试着遵循网站上给出
的
示例代码,from
sklearn
.multioutput importMultiOutputClassifierfrom
sklearn
.utils import shuffle我试图在我
的
y_trai
浏览 0
提问于2020-12-27
得票数 2
回答已采纳
1
回答
我是否可以
使用
RandomForestClassifier创建
随机
森林,它将由相同
的
树组成?
、
、
、
、
根据对这问题
的
回答,我应该能够
使用
bootstrap = False, max_features = None, random_state = 42参数构建一个具有所有相同树
的
随机
森林。我写了测试它
的
快速代码,似乎创建了不同
的
树。 是否有可能
使用
RandomForestClassifier创建一个
随机
森林,从而产生相同
的
树?
浏览 0
提问于2018-07-05
得票数 3
回答已采纳
1
回答
为什么隔离森林实现将它变成一个有监督
的
学习问题(目标的
随机
值)?
、
、
我正在查看python和R中隔离森林
的
各种实现,它们都在python中学习,在R中
使用
y变量,在ExtraTrees回归器中
使用
一个y变量。既然隔离森林是无人监管
的
,我想知道为什么它会变成一个监督问题?当在以前看不见
的
数据集上得分时,这不是一个问题吗? 例如,
sklearn
(python) 第248项具有这样
的
功能。
浏览 0
提问于2020-09-22
得票数 4
3
回答
多类问题单热编码类标签
的
正确方法
、
、
、
、
我有一个多类
的
分类问题,我们把它们称为A、B、C和D。我
的
数据
的
形状如下:[[1,0,0,0], [0,1,0,0], ...]并且有这个形状当我尝试
使用
它作为分类器输入时,问题就出现了。模型分别预测这四个标签中
的
每一个,这意味着它也能够产生像我不想要<e
浏览 1
提问于2020-04-14
得票数 1
回答已采纳
1
回答
酸洗
随机
森林模型
的
混淆矩阵
、
、
、
、
是否可以仅
使用
保存为pickle dump
的
模型来重新构造袋外验证
的
完整混淆矩阵?mymodel.oob_score_报告
的
OOB得分为0.75682 我找到了可以为这个模型提取预测标签
的
here,如下所示: pred_train = numpy.argmax(mymodel.oob_decision_function_,axis=1) 但是列车标签是否也保存在模型文件中
的
某个位置?
浏览 18
提问于2021-04-13
得票数 1
1
回答
为什么
随机
森林总是给出1.0
的
预测分数?
、
、
、
我正在尝试测试以下分类器
的
预测分数:- k neighbors- naïve bayesX_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.3)- load_iris- load_wi
浏览 5
提问于2020-04-12
得票数 0
回答已采纳
1
回答
为什么这种
随机
森林情感分类
的
准确性如此之低?
、
、
、
我想
使用
RandomForestClassifier进行情感分类。X包含
字符
串文本中
的
数据,因此我
使用
LabelEncoder来转换
字符
串。Y包含数字数据。我
的
代码是:import numpy as npfrom
sklearn
.ensembleimport *from
浏览 2
提问于2022-01-12
得票数 1
回答已采纳
1
回答
如何
在科学学习中
的
随机
森林分类器中设置子样本大小?特别是对于不平衡
的
数据
、
、
目前,我正在为我
的
不平衡数据在
Sklearn
中实现RandomForestClassifier。我不太清楚RF是
如何
在
Sklearn
中准确地工作
的
。我所关注
的
问题如下: “RandomForestCla
浏览 4
提问于2017-07-06
得票数 7
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券