腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
R
中一
组
列
的
热
编码
r
、
dataframe
、
machine-learning
、
one-hot-encoding
、
dummy-variable
我正在尝试对
R
中
的
df
列
的
子集进行
热
编码
, 一种热门
编码
是将分类变量转换为可提供给ML算法
的
形式
的
过程,以便通过将该
列
中
的
每个字符串将字符串列转换为二进制
列
来更好地进行预测。假设我们有一个如下
的
df: mes work_location birth_place 01/01/2000 China
浏览 45
提问于2020-10-29
得票数 0
回答已采纳
1
回答
多因素ggplot2多行
r
、
ggplot2
、
factors
我目前正在写我
的
硕士论文,我正在努力解决如何用多行多因素在
R
中绘制一个ggplot。我
的
数据是这样
的
总结:我想让温度排序(冷,温暖,
热
)在y轴和x轴每周(第1,2,3周).12)每个参与者
的
颜色为红色
组
1和蓝色
组
2。我没有得到
浏览 0
提问于2020-03-11
得票数 0
回答已采纳
1
回答
避免虚拟变量陷阱和神经网络
neural-network
、
regression
、
one-hot-encoding
我知道在训练机器学习算法之前,分类数据应该是一个
热
编码
。对于多元线性回归,我还需要排除其
中一
个
编码
变量,以避免所谓
的
虚拟变量陷阱。例:如果我有“大小”:“小”、“中”、“大”
的
分类特征,那么在一个
热
编码
中,我会有如下内容: 0 1 02999 因此,为了避免虚拟变量陷阱,我需要删除3
列
中
的
任何一
列
,例如,
浏览 9
提问于2017-11-04
得票数 11
回答已采纳
1
回答
Word2vec在使用隔离林时
编码
医疗程序
r
、
unsupervised-learning
、
anomaly-detection
、
outlier
、
isolation-forest
我计划在
R
(孤独包)中使用隔离森林来识别我
的
数据中
的
离群医疗声明。 我
的
每一行数据代表了每一个供应商在过去12个月中使用
的
一
组
药物。在我
的
数据集中大约有700+独特
的
药物,使用带有各种数值特性
的
单一
热
编码
会导致数据中
列
数
的
减少。作为对一种
热
编码
的
替代,我阅读了关于使用word2vec将“单词”或在我
的<
浏览 0
提问于2022-02-01
得票数 0
2
回答
一个hot
编码
只有6个类
的
28个不同国家
的
列
python
、
pandas
、
data-science
我有一个数据集,其
中一
列
“Country”有28个不同
的
国家。我需要首先‘标签
编码
’
的
列
,然后‘一个
热
编码
’它只有6个标签:前5个最频繁
的
国家:美国,中国,日本,法国,加拿大和第6个标签是‘其他’
的
任何其他国家在
列
中
浏览 22
提问于2020-04-12
得票数 0
2
回答
将大量
的
分类变量
编码
为输入数据
machine-learning
、
neural-network
当您处理数百个类别时,一个
热
编码
听起来并不是一个好主意,例如一个数据集,其
中一
个
列
是“名字”。对这类数据进行
编码
的
最佳方法是什么?
浏览 4
提问于2016-02-15
得票数 1
回答已采纳
2
回答
总是在执行一次
热
编码
之后删除第一
列
?
machine-learning
、
dataset
、
feature-selection
、
categorical-data
、
encoding
由于其
中一
列
可以完全从其他
列
生成,因此保留这一额外
列
不会为建模过程添加任何新
的
信息,因此,在执行一次
热
编码
之后始终删除第一
列
是否是一种好做法,而不管所选择
的
算法是什么?
浏览 0
提问于2018-02-27
得票数 8
2
回答
如何将2
列
转换为目标指示符
python
、
pandas
我有一个模拟熊猫数据,由4
列
(x,y,颜色,标记)。我想把颜色,标记
列
组合成一个
列
,它有一个对应于每个不同颜色标记对
的
数字。我试过在网上搜索,但找不到像这样
的
问题。我已经尝试引入get_dummies熊猫呼叫,但我不希望在一个
热
编码
中
的
数字,我想要一个更快
的
方法,然后转换为一个
热
编码
,然后转换成我
的
目标指数。例如: 0
浏览 2
提问于2020-08-01
得票数 0
回答已采纳
2
回答
R
中一
列
的
热
图
r
、
dataframe
、
ggplot2
、
plot
、
heatmap
我有一个与每个单元格相关联
的
分数
的
dataframe,并且在我
的
dataframe
的
一
列
中得到了聚类结果(与分数无关):type value cell2 1 0.5 24 1 0.5 46 1 0.3 6 我想制作一个
热
图,用一
列
表示单元格,样本按顺序排列,颜色代表分数(值)。目前,我已
浏览 4
提问于2022-08-15
得票数 0
回答已采纳
1
回答
如何从sparklyr中
的
交叉验证器中获得最佳模型
的
特征重要性?
r
、
random-forest
、
sparklyr
我能够在sparklyr中训练随机森林交叉验证器,但无法找到获得最佳模型
的
特性重要性
的
方法。如果我训练一个简单
的
随机森林模型,我可以使用:feature_imp <- ml_tree_feature_importance(fit)> cv_model <- ml_fit(cv, df_training) > feature_imp <- ml
浏览 1
提问于2018-06-19
得票数 2
回答已采纳
2
回答
当训练数据没有得到所有预期
的
类别时,如何处理分类数据?
python
、
machine-learning
、
categorical-data
我
的
数据有一个名为level
的
特性,数据可能有级别( -1,0-1,2,3),但我
的
数据现在只有2级0和-1。我用python进行二进制分类。如何对所有级别进行一次
热
编码
?处理这个问题
的
正确方法是什么?我可以将所有级别都包括在测试数据中吗?还是应该只使用两个级别?
浏览 1
提问于2018-01-31
得票数 0
回答已采纳
1
回答
Scikit中
的
特征选择-混合变量类型
的
学习计数器问题
python
、
scikit-learn
、
data-science
、
feature-selection
因为存在连续变量和范畴变量
的
混合,所以当我对我有两个问题
的
范畴进行
编码
时,我遇到了一些问题:我不打算包括预处理,但它所做
的
只是推
浏览 6
提问于2020-07-19
得票数 0
2
回答
如何识别数据帧中
的
一个
热
编码
列
python
、
pandas
、
numpy
、
data-cleaning
、
one-hot-encoding
在熊猫数据帧中,有多个具有二进制值
的
二进制特征
列
,其挑战是确定哪一
列
有一个
热
标签/值(哪一
列
可以是一个
热
编码
向量
的
一部分),以及哪一
列
是一个独立
的
特征,而不是一个
热
编码
标签/向量
的
一部分。我需要清理和预处理
的
数据如下所示: Rows v1 v2 v3 v4 v5 v6 v7 v8 v9 v10 Label
浏览 0
提问于2020-07-31
得票数 2
回答已采纳
1
回答
基于树
的
方法如何处理缺少
的
特征
列
?
decision-trees
、
xgboost
、
one-hot-encoding
、
dummy-variables
全, 我已经培训了一个使用xgboost
的
模型。其
中一
些特征是一种
热
编码
的
货币,例如,它要么是英镑,要么是美元。似乎当我输出特征重要性时,英镑和美元分别排在第7位。现在我想用这个模型来预测澳大利亚国家是否有违约者,但是这些国家
的
货币是澳元。因此,当我应用我
的
特性工程时,它将创建一个
列
和一次
热
编码
。由于我
的
模型没有AUD作为一个功能,它如何处理
的
功能,已经看不见?我对此不太清楚
浏览 0
提问于2020-11-02
得票数 0
1
回答
R
中一
列
数据
的
热
图
r
现在我有一
列
数据,超过500行。City = c("New York", "LA", "DC", "Boston", "Chicago"),我想要构建一个
热
图我能否将该
列
拆分为多个
列
并创建heatmap。提前感谢!
浏览 2
提问于2017-06-26
得票数 4
回答已采纳
2
回答
为几个
热
编码
列
(所有组合)创建行,以便通过模型得分。
python
、
pandas
我从下面这个简化
的
示例开始我
的
需求: 'dg1_2':[0, 1], 'dg2我有两个
热
编码
组
dg1和dg2。这显然是简化
的
,dg1和dg2可以包含不同
的
列
数。(1) 我想要创建所有可能
的
组合给one_observation,这样对于每个<
浏览 1
提问于2022-02-19
得票数 2
回答已采纳
1
回答
R
中
列
列表
的
单-
热
编码
r
、
one-hot-encoding
、
contingency
我有一张交叉分类表,如下所示:我
的
目标是创建这个表
的
一个
热
编码
。因此,必须有24行,其结果为1(患有心脏病),“从不”列为1,所有其他列为0。结果为1
的
35行,“偶尔”为1,其他所有行为0。诸若此类。最后,如果你好奇的话,这张表是艾伦·阿莱斯蒂
的
“分类数据
浏览 5
提问于2022-04-08
得票数 -1
1
回答
pandas数据帧
中一
列
热
编码
列
的
统计
python
、
pandas
、
dataframe
这些列表示表示一个
热
编码
值
的
列
featureA(它可以有三个唯一
的
值。)同样,它也有两个标题为featureB_1和featureB_2分别。这些列表示featureB(它可以有两个不同
的
值。)1, 1, 0, 0, 1, 1],} df1 = pd.DataFrame(dictt) 由于采用了一种
热
编码
,因此上述数据帧中
的
浏览 27
提问于2021-02-19
得票数 5
回答已采纳
4
回答
熊猫get_dummies多栏
python
、
pandas
我有一个包含多个
列
的
数据集,我希望对其进行一个
热
编码
。但是,我不希望对每个
列
都进行
编码
,因为所述
列
与所述项相关。我想要
的
是使用所有
列
的
一
组
虚拟变量。请参阅我
的
代码以获得更好
的
解释。0 1 0 1 0然而,我
浏览 0
提问于2018-08-26
得票数 11
回答已采纳
3
回答
如何创建一个随机
的
单热点
编码
的
熊猫行?
python
、
pandas
如何才能给一个熊猫数据帧添加一个随机
的
热
编码
熊猫
的
值? 例如,给定三个新
列
,我希望在其
中一
行中随机分配一个True值,在其他行中随机分配一个False值。[True, False], df.shape[0]) batch['C'] = np.random.choice([True, False], df.shape[0]) 然而,这种方法并没有给我一个
热
编码
的
版本(在三行中只有一个可能是真的),你知道如何正确地创建
浏览 11
提问于2021-03-19
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
机器学习中的独热编码
GraphPad Prism统计习题,配合单元课学习效果拔群(五)
Scikit-Learn大变化:合并Pandas
Excel答粉丝问:批量将单元格内容转为批注
Python-拉丁方设计资料方差分析
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券