腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(2254)
视频
沙龙
1
回答
在
我
将
分类
变量
转
换为
虚拟
变量
后
,
如何
从
sklearn
api
中找到
特征
重要性
?
、
、
、
、
在
我们
将
分类
变量
转
换为
用于训练模型的
虚拟
变量
之后。我们倾向于发现
特征
的
重要性
。但是
sklearn
的model.feature_importance_对象返回每个
虚拟
变量
的重要特性,而不是原始的
分类
变量
。
如何
解决这个问题?
浏览 16
提问于2020-04-07
得票数 0
1
回答
分类
变量
的xgboost
特征
重要性
、
、
我
正在使用XGBClassifier进行python训练,
在
我
的训练数据集中有一些
分类
变量
。最初,
我
计划在添加数据之前将它们每个都转
换为
几个
虚拟
对象,但随后将计算每个
虚拟
对象的
特征
重要性
,而不是原始的
分类
对象。由于我还需要按
重要性
对所有原始
变量
(包括数字+
分类
)进行排序,因此
我
想知道
如何
获得原
浏览 1
提问于2018-11-16
得票数 0
2
回答
滑雪场随机森林
、
、
我
试着用
sklearn
的随机森林
分类
器包来拟合随机森林模型。但是,
我
的数据集由具有字符串值('country')的列组成。这里的随机林
分类
器不接受字符串值。它需要所有
特征
的数值。
我
想用一些
虚拟
变量
来代替这样的列。但是,
我
搞不懂现在的特色重要情节会是什么样子。会有诸如country_India、country_usa等
变量
。如果
我
用R进行分析,
如何</em
浏览 0
提问于2016-04-03
得票数 0
回答已采纳
1
回答
如何
在学习过程中利用DictVectorizer获得
分类
特征
的
重要性
、
我
正在用
sklearn
.ensemble.GradientBoostingRegressor训练一个模型。
我
的数据集包括不同的
变量
,包括数值
变量
和类别
变量
。,因为
sklearn
不支持
分类
变量
,所以
在
输入Regressor之前,
我
使用DictVectorizer来转换这些
分类
特性。arrX = np.concatenate((arrNumVariables,arrCateFeatu
浏览 0
提问于2014-09-04
得票数 4
回答已采纳
1
回答
在
我
的Xgboost机器学习模型中,当
特征
的
重要性
为0时,您应该丢弃它们还是将它们组合在一起?
、
、
我
一直
在
尝试构建一个ML模型,该模型预测不同产品通过部署管道所需的时间。
我
已经创建了大约30-40个不同的
特征
,其中90%是
分类
特征
,10%是数字
特征
。例如,
我
有一个特性“产品类别”,它可以有5个不同的值。然后,
我
为
我
的所有
分类
变量
创建了
虚拟
变量
,最终得到了大约200-300个
变量
。
我
已经训练了一个XGboos
浏览 4
提问于2019-02-27
得票数 1
2
回答
如何
度量Python中的几个
分类
特征
与数字标签之间的相关性?
、
、
、
几周来,
我
一直
在
测量通过自动发布管道发布产品所需的时间。
我
有几个不同的
分类
功能,如“产品类别”,“产品负责人”。然后,
我
也有一些数字类别,如“一天中的时间开始工作”,“子产品的数量”等等。总共
我
有16个不同的类别,每个类别可以有大约10个不同的值。 现在,
我
将
尝试训练一个回归模型,看看我是否能够根据这些特性预测出产品通过管道所需的提前期(所需时间)。
我
想知道这些特性中是否有比其他特性更相关的特性。正如我所理解的那样,
我</em
浏览 0
提问于2019-02-17
得票数 0
1
回答
带有
分类
变量
的Spark决策树
、
我
的数据有
分类
变量
(响应和一些
特征
变量
)。
在
将
分类
变量
转
换为
二进制
特征
后
,
如何
将其转
换为
libsvm格式?
浏览 2
提问于2016-05-16
得票数 0
2
回答
学习OneHotEncoder
在
特征
选择中的作用
、
、
、
如果
我
需要在
我
的数据集中运行特性选择,那么使用OneHotEncoder不是有问题吗?难道它就不能决定删除其中一个编码列吗?
我
该怎么处理呢?谢谢。
浏览 0
提问于2020-02-29
得票数 2
回答已采纳
4
回答
特征
重要性
语境下的决策树解释
、
、
、
、
我
试图了解
如何
充分理解决策树
分类
模型的决策过程。
我
要看的两个主要方面是树的图形表示和特性
重要性
列表。
我
不明白的是特性的
重要性
是
如何
在树的上下文中确定的。例如,下面是
我
的特性
重要性
列表:
特征
排名: 1.
我
天真的假设是,最重要的
特征
将被排在树顶附近,从而产生最大的影响。如果这是不正确的,那么是什么使一个功能“重要”?
浏览 0
提问于2017-02-02
得票数 13
回答已采纳
2
回答
像回归一样量化随机森林中
变量
的
重要性
、
、
、
、
有没有可能量化
变量
的
重要性
,以计算出一个观察值落入一类的概率。类似于Logistic回归的东西。例如:如果
我
有以下自
变量
: 1)猫的数量2)狗的数量一个人有3)鸡的数量有没有可能这样说:“如果一个人比他现有的动物范围多领养一只猫,他成为善待动物组织的一部分的可能性增加了
我
目前正在使用以下方法来实现这个特定的场景: 1)使用训练数据建立一个随机森林模型2)预测客户
在
一个特定类别中跌倒的概率(Peta vs
浏览 2
提问于2018-09-25
得票数 0
5
回答
学习随机森林可以直接处理
分类
特征
吗?
、
、
、
假设
我
有一个
分类
特征
,即颜色,它采用以下值
我
想用它来预测随机森林中的一些东西。如果
我
只对它进行一次热编码(即
我
将它更改为四个
虚拟
变量
),
我
如何
告诉
sklearn
这四个
虚拟
变量
实际上是一个
变量
?具体来说,当
sklearn
随机选择要在不同节点上使用的特性时,它要么应该
将
红
浏览 12
提问于2014-07-12
得票数 77
回答已采纳
1
回答
滑雪板的LabelBinarizer可以和DictVectorizer类似吗?
、
、
我
有一个包括数字和
分类
特征
的数据集,其中
分类
特征
可以包含一个标签列表。,DictVecorizer就会优雅地
将
编码处理成适当的
虚拟
变量
:RecipeData=[{整数
特征
被正确地处理,而
分类
标签被编码成布尔
特征
。牛奶‘,'TimeToPrep':5},{
浏览 2
提问于2014-01-15
得票数 0
回答已采纳
1
回答
熊猫
分类
变量
变换
、
result 1,2,cat1,12 2,3,cat2,13 1,6,cat1,6 1,1,cat2,12import pandas as pdfrom
sklearn
.lin
浏览 1
提问于2016-04-11
得票数 4
回答已采纳
1
回答
为高基数数据实现Scikit的FeatureHasher
、
、
、
、
背景:
我
正在研究医疗保险索赔的二元
分类
。
我
正在处理的数据有大约100万行,以及数字特性和
分类
特性(所有这些都是名义上的离散特性)的混合。
我
已经绘制了
我
的8个
分类
特征
,其中最重要的是独特的因素水平: 替代
虚拟
变量
:
我
一直
在
阅读
特征
哈希,并了解到该方法是一种可用于快速和空间效率高的
特征
矢量化方法的替代方法,它的特殊性适用于基数较高的
分类
浏览 3
提问于2020-04-02
得票数 0
回答已采纳
1
回答
在
分类
问题中什么时候取
虚拟
变量
?
、
、
、
、
我
正在做一个二进制
分类
问题,
我
预测一个客户是否会订阅一个运动(为航空业)。有一些
变量
是十分之一(1到10)和
变量
,如教育水平(0到5)。
我
应该
如何
对待我的
变量
?
我
是否需要将这些
变量
转
换为
虚拟
变量
(0或1),
我
正在运行Logistic回
浏览 2
提问于2017-03-22
得票数 0
回答已采纳
3
回答
随机森林或其他机器学习技术[需要建议]
、
、
我
试图了解一些自
变量
之间的基本原理,并在因
变量
上量化它们的
重要性
。
我
遇到了像随机森林这样的方法,它可以量化
变量
的
重要性
,然后预测结果。然而,
我
对随机森林或类似方法使用的数据的性质有一个问题。下面提供了一个数据结构的示例,正如您可以看到的那样,时间序列具有一些
变量
,如人口和年龄,这些
变量
不会随时间变化,尽管不同的城市不同。而其他
变量
,如温度和互联网用户数量,则随着时间和城市内部的变化而变化。
我
浏览 0
提问于2020-08-16
得票数 0
3
回答
如何
在具有
分类
特征
和数值
特征
的数据集上进行
特征
选择?
、
、
我
正在处理一个30列的数据集(29列,1个非序数
分类
)。
我
热编码的
分类
功能,并达到35列。为了提高培训效率,
我
希望
在
我
的数据集上执行
特征
选择。但是,
我
对
如何
处理包含
分类
和数值特性的数据集感到困惑。
我
读到,
在
假人身上应用PCA是不合理的,因为它们是离散的。首先将PCA应用于数值
特征
,然后将它们与假人连接起来,这是否合理?
我
试图通
浏览 0
提问于2020-07-15
得票数 7
2
回答
随机森林
分类
器中的单热编码
、
、
是否需要对python中的随机森林
分类
器进行一次热编码?
我
想从逻辑上理解,随机林中是否可以用标签编码来处理
分类
特性,而不是单热编码。
浏览 4
提问于2021-01-14
得票数 0
2
回答
具有
虚拟
/
分类
变量
的线性回归
、
、
、
、
我
有一组数据。
我
已经使用pandas将它们分别转
换为
虚拟
变量
和
分类
变量
。所以,现在
我
想知道,
如何
在Python中运行多元线性回归(
我
正在使用statsmodel)?是否有一些考虑因素,或者也许
我
必须以某种方式
在
我
的代码中指出
变量
是
虚拟
的/
分类
的?或者,也许
变量
的转换就足够了,
浏览 3
提问于2018-06-07
得票数 10
回答已采纳
2
回答
如何
处理决策树,随机森林的
分类
特征
?
、
、
我
试图
在
UCI银行营销数据-> 上建立决策树和随机森林
分类
器。数据集中有许多
分类
特性(具有字符串值)。
在
spark文档中,可以通过使用StringIndexer或VectorIndexer索引
将
分类
变量
转
换为
数字
变量
。
我
选择使用StringIndexer (向量索引需要向量
特征
和向量汇编程序,它将
特征
转
换为
向量
特征
,只接受
浏览 6
提问于2017-07-06
得票数 5
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券