腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1969)
视频
沙龙
1
回答
一个
热
编码
仅
影响
R
配
方中
的
变量
、
我有
一个
这样
的
数据帧df height age dept44 8 B58 34C 我只想对因子
变量
进行一次
热
编码
(只有dept是
一个
因子)。并得到这样
的
警告: 警告消息:以下
变量
不是因子向量,将被忽略:height、age ohe <- df %>% re
浏览 12
提问于2021-11-09
得票数 1
回答已采纳
2
回答
如何对序数
变量
进行
编码
?
使用序数
变量
,我可以执行一次
热
编码
,以便在统计模型中使用。在我正在读
的
一些书中,我看到有序
变量
[a,b,c]
的
排序a<b<c
编码
如下1 1 0这里,矩阵各行中
的
额外1表示,例如,b对a有附加
影响
。110110111
浏览 1
提问于2017-08-22
得票数 0
1
回答
基于日期时间
的
虚拟
变量
编码
或周一至周五
的
单
热
编码
( DolphinDB )
、
星期一到星期五是模型
的
自
变量
,但是为了消除1-5基元
的
影响
,需要构造
一个
热
编码
或虚拟
变量
。
浏览 10
提问于2022-04-21
得票数 0
1
回答
当有分类数据时,使用Sklearn随机森林进行特征选择不会给出预期
的
结果
、
、
、
我想使用SKlearn随机森林特征选择函数来了解
影响
我
的
自
变量
(TN污染物浓度)
的
关键因素是什么。我有
一个
分类
变量
-气候类型,有五种气候类型(温度-
热
,温度-干燥,温度暖,热带和干旱),我知道气候类型对我
的
自
变量
有很大
的
影响
,但是,当我使用一种
热
编码
方法(通过pandas get_dummies)时,我发现这些气候类型(经过一次
热
编码</
浏览 44
提问于2020-10-07
得票数 2
1
回答
如何使用yocto配方在目标板上设置环境
变量
?
、
、
我想创建
一个
名为BOARD
的
环境
变量
,该
变量
被设置为Yocto配
方中
的
物理板类型。在配方
的
实际安装过程中不会使用此
变量
。我还想修改HOME
变量
。这些
变量
需要在启动后可以在主板上访问。这样做最好
的
地方是什么? 我尝试过使用export,但意识到此命令不会
影响
父shell。我读过有关修改dot.profile文件
的
内容,但我不想硬
编码
变量</
浏览 0
提问于2019-07-13
得票数 0
1
回答
单
热
编码
效果卡方检验吗?
、
、
我正在为
一个
数据科学项目做
一个
特性选择,其中
一个
特性是
一个
高度基数
的
分类
变量
(对于上下文来说,它是国籍)。我知道卡方测试可以像我
的
测试那样处理多类特性,但我需要执行
一个
热
编码
(根据多类
变量
的
值将多个
变量
划分为多个二进制
变量
),才能将其输入到我
的
机器学习算法(spark )中。我
的
问题是,做
一个
浏览 0
提问于2022-05-16
得票数 0
1
回答
R
:将dgCMatrix分解成训练矩阵和测试矩阵,用于XGBoost训练
、
、
、
首先,我是XGBoost
的
新手。原谅我
的
愚蠢。如何将dgCMatrix分解为两个矩阵(例如,训练和测试)?我
的
目标是使用这些矩阵进行XGBoost培训。当我使用一次
热
编码
将所有的分类
变量
转换为数值
变量
时,我得到了dgCMatrix。我可以单独对训练数据集和测试数据集进行一次
热
编码
吗?我尝试过dummyVars (从包插入符号)进行一次
热
编码
,但我
的</e
浏览 0
提问于2016-09-05
得票数 2
回答已采纳
1
回答
模型中字符串(关键字/主题)
的
表示选项
、
、
、
在机器学习模型中表示关键字
的
所有可能方法是什么?
一个
热
编码
,使用静态索引。 向量表示,使用嵌入层。在处理客户端(浏览器) ml时,我们遇到了
一个
特定
的
问题,需要将文本数据转换为模型可以使用
的
东西,而无需将其发送到服务器。编辑:(注释澄清)文本数据是从我们
的
脚本加载
的
页面中提取出来
的
,然后我们希望在浏览器上本地运行
一个
模型--使用页面中基于文本
的</
浏览 0
提问于2019-08-01
得票数 1
1
回答
XGBoost:测试数据中
的
特性可以是用于训练模型
的
特性
的
子集吗?
、
如果测试数据
仅
包含用于训练xgboost模型
的
特性子集,这是否是
一个
问题?我
的
所有预测
变量
(1除外)都是因素,所以在将其转换为xgb.DMatrix之前先进行一次
热
编码
。因此,不同级别的因素
变量
成为特性,而我
的
测试并没有所有这些特性,只有
一个
子集。 目前,当我在
R
中
的
测试数据上运行我
的
模型时,我遇到了
一个
错误:“存储在对象和新数据中
的</
浏览 0
提问于2019-06-14
得票数 2
回答已采纳
2
回答
编码
“直方图箱”
、
、
、
、
我目前正在处理
一个
回归问题,其中我有
一个
变量
(x)
的
数据,以“直方图箱”
的
形式。例如,我可以有900-999,1500-1599等值范围,但是数据没有告诉你具体
的
值。我
的
问题是:在这种情况下,我是否应该把这个
变量
当作实值(可能取每个垃圾桶
的
中位数)?或者我应该把它作为分类数据来处理,每个100宽
的
bin代表
一个
单独
的
类别?如果我认为它是绝对
的
,什么是最好
的
浏览 0
提问于2021-09-04
得票数 1
3
回答
如何使用Python和Scikit进行线性回归学习使用
一个
热
编码
?
、
、
我正在尝试使用线性回归结合python和scikitlearn来回答这个问题:“在给定用户人口统计信息
的
情况下,是否可以预测用户会话
的
长度?”我使用线性回归,因为用户会话长度是以毫秒为单位
的
,这是连续
的
。我对我所有的分类
变量
进行了
热
编码
,包括性别、国家和年龄范围。 我试着在这里阅读: 我理解
的
输入是我
的
主
浏览 3
提问于2016-12-26
得票数 5
回答已采纳
1
回答
Keras -使用具有多个分类
变量
的
嵌入
、
如果我正确理解了嵌入矩阵
的
概念,它们
的
存在是为了提供一种比使用一种
热
编码
更有效
的
方法来
编码
分类
变量
。似乎如果你有多个分类
变量
作为Keras模型
的
输入,你需要为每个分类
变量
使用
一个
单独
的
嵌入矩阵。但是,我找不到使用Keras提供
的
embedding类对多个分类
变量
使用嵌入
的
方法。文档中
的
示例
仅
展
浏览 5
提问于2020-01-25
得票数 3
1
回答
在线性回归中,标度给了我更坏
的
结果(较低
的
R
平方)。
、
、
我试图在数据集上使用线性回归,其中预测器是产品ID、权重、类型、Outlet_Establishment_Year等,目标
变量
是Item_Outlet_Sales。我用
R
-平方作为度量。我认为预测器有不同
的
单位,所以我需要对它们进行缩放。平方,得到0.57
的
结果: concat_data = pd.concat([X, Y], axis:',
r
2_score(Y_scaled, predicte
浏览 12
提问于2022-10-29
得票数 0
2
回答
R
与滑雪板中
的
随机森林
、
、
、
、
非常方便
的
是,
R
中
的
RandomForest接受输入(X)
的
因素。如果从带有值(a,b,c)
的
因子
变量
中构建
一个
节点,将其分解为(a,c)和(b),我假设这样做可以使构建树更容易。在sklearn中,我需要将所有内容
编码
为虚码(0,1),以便丢失a、b、c向量之间
的
任何关系。 我
的
解释正确吗?在滑雪板中有一种连接输入向量
的
方法吗?如果我将
变量
编码
为( 0,1 ,
浏览 6
提问于2017-08-10
得票数 3
3
回答
.fit()方法中
的
多个标签(Trainy)
的
热
编码
?
、
、
我有
一个
移动价格分类数据集,其中我有20个特性和
一个
名为price_range
的
目标
变量
。我需要分类移动价格低,中等,高,非常高。错误:
浏览 0
提问于2019-11-04
得票数 0
回答已采纳
1
回答
如何对tfdatasets
r
中
的
响应
变量
进行
热
编码
?
、
我正在尝试在
R
中使用tfdatasets包,以便生成
一个
管道,该管道接受tibble/dataframe并输出
一个
热点
编码
的
物种响应
变量
。如何使用tfdatasets转换响应
变量
(y),以便将物种输出为
一个
热
编码
的
物种? 期望
的
输出为: 杂色,刚毛,处女座 0,1,0 ...
浏览 10
提问于2020-04-09
得票数 1
2
回答
为什么树组不需要一次
热
编码
?
、
、
、
、
我知道像随机森林和增强树这样
的
模型不需要对预测器级别进行一次
热
编码
,但我并不真正理解为什么。如果树是在特征空间中分割
的
,那么是否存在固有的排序呢?这里一定有我遗漏
的
东西。让我更困惑
的
是,我遇到了我正在研究
的
一个
问题,尝试在分类特性上使用一次
热
编码
,而在
R
中使用xgboost将其转换为整数,使用一次
热
编码
的
泛化错误稍微好一些。然后我又取了
一
浏览 0
提问于2017-04-02
得票数 8
回答已采纳
4
回答
序数数据何时应该按顺序表示,什么时候用整数表示?
、
、
、
我正在做Kaggle竞赛房价:先进
的
回归技术来了解更多关于数据分析
的
知识。我想将多个模型应用于数据(正则化LR、随机森林、神经网络和集成方法)。Reg Regular IR2 Moderately Irregular我想知道是否应该保持这样
的
字段,或者是否应该将它们转换为整数(即给类别中
的
每个类
一个
类似于1、2、3或4
的
数字)。因为问题可能是‘这取决’,我希望你能给我一些更普遍
浏览 0
提问于2018-08-18
得票数 2
1
回答
在excel中将数据分类为数字
、
、
、
我有
一个
大
的
数据集,我想把这些分类数据转换成二进制形式
的
数值,以便在
R
中执行k均值聚类,但是,我得到了
一个
值错误。这是我在excel表中输入
的
公式:=LEFT(B2,FIND(“",B2,1)-1)。📷
浏览 0
提问于2019-02-24
得票数 0
1
回答
处理包含多个非序数分类功能
的
Pandas数据帧
、
、
、
我目前正试图分析
一个
包含多个非序数分类特征和
一个
二进制目标
变量
的
数据集。这张桌子看起来是这样
的
:| Col1 | ....50 | cat 450 | 1 |整个表是400.000行x15列,其中最后一列是目标
变量
我
的
第一反应是对所有的分类
变量<
浏览 0
提问于2020-06-03
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
自动机器学习建模平台,R2 Learn助力汽车新车测试
前方高能–解析轮胎工艺大数据分析DELMIA OI思路
关键概念:每个数据科学家都应了解的5个概念
one-hot encoding不是万能的,这些分类变量编码方法你值得拥有
R语言拟合改进的稀疏广义加性模型(RGAM)预测、交叉验证、可视化
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券