腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
不
破坏
数据
的
情况
下在
Stata
中
重新
编码
分类
变量
的
级别
stata
、
categorical-data
、
recode
我有这个
变量
,它接受以下值: tab expenditure Q11 | Freq.--------------------- Total | 625 100.00 我想更改排序,这样类别就不是按字母顺序排列
的
。replace 我还试着使用 recode expenditure (1 = 5) (2 = 1) (3 = 2) (4 = 3) (5 = 6) (6 = 4) 然而,这两种方法都只是改变了
浏览 85
提问于2021-09-22
得票数 1
回答已采纳
3
回答
Python
中
决策树
的
序数特性
decision-trees
我有一个带有序数features.Each特性
的
数据
集,可能有6到7个
级别
。基于我对R
的
搜索,如果你有序数
数据
,rpart对序数和标称
的
处理方式不同。stats.stackexchange.com/questions/94502/decision-tree-splitting-factor-variables 但是现在我正在用Python实现决策树,没有任何东西可以与rpart相比来处理序数
数据
Python似乎不能很好地处理
分类</
浏览 0
提问于2019-09-05
得票数 0
3
回答
如何去除R
中
的
一个因子级?
r
、
stata
我需要将
变量
从R
中
的
数据
帧
中
删除,我
的
数据
有一列有18个因素: drop if rama1 == 99 (rama1是因
浏览 1
提问于2015-08-30
得票数 1
回答已采纳
1
回答
我可以
在
randomForest
中
同时使用
分类
和数值
数据
变量
吗?
machine-learning
、
r
、
regression
、
random-forest
在
我
的
数据
中
,很少有列包含
分类
数据
,而其余
的
列包含数字
数据
。我想在r中使用来自randomForest库
的
随机森林回归器。那么,这个库是否可以
在
开箱即用
的
情况
下处理这些
数据
(假设我已经对
数据
进行了预处理,并准备好在回归器中直接提供
数据
)?
数据
(沿这条线
的
内容): Target | produc
浏览 0
提问于2018-10-31
得票数 1
1
回答
我可以
在
不
编码
数据
的
情况
下在
Keras嵌入层
中
输入
分类
数据
吗?
tensorflow
、
keras
、
bert-language-model
、
embedding
我正在尝试将多颜色
的
分类
数据
输入Keras嵌入层。我可以
在
没有
编码
的
情况
下在
Keras嵌入层
中
输入
分类
数据
吗? 如果没有,那么哪种
编码
方法更适合从
分类
数据
中
检索上下文信息?
浏览 9
提问于2022-09-10
得票数 0
2
回答
选择
级别
数等于1
的
分类
变量
。
r
、
apply
、
sapply
、
data-cleaning
在
数据
挖掘中进行预处理有时需要
重新
分组和
重新
编码
分类
变量
。众所周知,一旦
在
R(即函数mapvalues)
中
对范畴
变量
进行了
重新
编码
,就需要用df$variable <- factor(df$variable)更新
分类
变量
,以便可以使用str(df)查看data.frame
中
的
实际
级别
数。我编写了一段代码来
浏览 7
提问于2015-07-17
得票数 2
回答已采纳
1
回答
目标
编码
:
编码
前后
的
缺失值估算
feature-engineering
、
encoding
、
data-imputation
我想为我
的
分类
特性执行目标
编码
,尽管我不确定何时执行
数据
归并,如果其中任何一个缺少值。假设我有一些连续
的
特性,Cnt1-Cnt5 (没有NA)和两个
分类
特性,Cat1和Cat2,其中Cat2缺少值。哪种方法是正确
的
? 假设Cat2将Cat1和Cnt1-Cnt5作为RF
的
预测因子,然后对
分类
变量
进行目标
编码
。将Cat2
编码
为“
不
丢失”和“Cat1”,为Cat2构建R
浏览 0
提问于2019-03-16
得票数 3
1
回答
使用read.dta13时“检测到双精度或浮点类型
的
系数代码”
r
我正在使用read.dta13包来加载
数据
。在
数据
集中有一堆带有
Stata
值标签
的
分类
变量
。
Stata
中
的
数据
集如下所示:1101 2010 35 F 13034
在
Stata
中
,为了便于理解,我使用label define为
分
浏览 0
提问于2017-08-14
得票数 2
2
回答
如何在具有数值
变量
和
分类
变量
的
数据
集上创建
分类
决策树?
decision-trees
我在这份工作
中
对
数据
科学和学习东西很陌生。我是一名欺诈分析师,我
的
工作是根据
数据
预测应用程序是否具有欺骗性。
在
进入许多高级模型之前,我被要求
在
dataset上构建决策树。现在,我有1500列
的
数据
集;一些
分类
和一些数字。不同
的
分类
变量
有不同
的
级别
;有些是二进制
变量
,有些是100+
级别
。我遇到了这样一个事实:只
浏览 0
提问于2021-08-04
得票数 0
2
回答
分类
变量
的
Stata
排序与合并
categorical-data
、
dataset
、
stata
、
data-management
我正在将
Stata
中
的
两个
数据
集合并在一起,并提出了一个潜在
的
问题。 我计划以完全相同
的
方式对两个
数据
集共有的几个
分类
变量
进行sort。然而,几个
分类
变量
在
一个
数据
集中比另一个
数据
集中有更多
的
类别。我已经足够小心地确保
编码
在
两个
数据
集中都匹配(例如,在
数据
集
浏览 1
提问于2013-06-15
得票数 1
1
回答
不同类别的失踪
database-design
、
normalization
、
datatypes
、
database-recommendation
、
metadata
大多数
数据
库系统可以表示缺失
的
值,通常是“空值”或类似的值。但是,如果我想代表不同类别的缺失
数据
呢? 对于
分类
数据
来说,这不一定是一个大问题。只需为每种缺失类型创建额外
的
类别即可。但是,
在
表示连续
数据
(例如收入)时,这可能是一个更具挑战性
的
问题。有些人会使用代码(如99999,99998,99997 )来表示错误,让用户来识别这些值丢失,并在执行分析时对它们进行
重新
编码
。我想避免这种
情况</
浏览 0
提问于2019-02-01
得票数 1
1
回答
从
分类
变量
生成虚拟
变量
sas
、
stata
、
dummy-variable
如何在SAS
中
为
数据
集中每个
分类
变量
的
每个值创建一个虚拟
变量
(
编码
为0或1)?因为我有很多
变量
,所以我想做一些像循环这样
的
事情。
在
Stata
中
,我将使用以下代码: tabulate `var', gen
浏览 1
提问于2020-03-10
得票数 1
1
回答
R:
在
另一个
变量
值为NA
的
情况
下,如何将
变量
的
值
重新
编码
为NA
r
我正在清理一个
数据
集,当DebtRatio
的
值为NA时,我需要对
变量
DebtRatio进行
重新
编码
,以获得值NA。默认
情况
下,这不是真的,因此具有NA
的
值为DebtRatio (自然)提供了疯狂
的
值。然而,这些
情况
有各种其他有趣
的
信息,所以我
不
希望完全删除它们。只需将这些
情况
的
值
重新
编码
到NA即可。 然而,当我运行我
的<
浏览 3
提问于2015-06-11
得票数 0
回答已采纳
2
回答
使用虚拟
变量
进行多个
分类
变量
的
机器学习
python
、
machine-learning
、
dummy-variable
我希望使用Python对一些拥有大量
分类
变量
的
数据
进行多元线性回归或Logistic回归。我知道,有一个范畴
变量
,我需要把它转换成一个虚拟,然后移除一种类型
的
虚拟,以避免冒充,然而,是否有人熟悉
在
处理多个类型
的
范畴
变量
时应该采取什么方法? 我对每个人都做同样
的
事吗?例如,将每种类型
的
记录转换为一个虚拟
变量
,然后为每个类型删除一个虚拟
变量
,以避免冒充?
浏览 7
提问于2017-05-24
得票数 1
回答已采纳
3
回答
对
分类
变量
进行排序有优势吗?
r
、
modeling
、
categorical-data
有人建议我最好在适当
的
地方对
分类
变量
进行排序(例如,短小于
中
,小于长)。我想知道,
在
将
分类
变量
建模为解释
变量
的
上下文中,将
分类
变量
按顺序对待而不仅仅是简单
的
分类
变量
有什么具体
的
优势?
浏览 2
提问于2014-02-06
得票数 2
1
回答
如何将标签
重新
导入
Stata
excel
、
stata
、
labels
我目前正在尝试将
数据
从
stata
导出到excel (并在excel
中
创建pivot和vlookup ),然后将其
重新
导入到
Stata
中
。除了带有标签
的
变量
导出为"1 very good“或没有标签"1”,并作为字符串导入,或者
在
没有标签
的
情况
下作为字符串导入外,其他一切都按预期工作。有没有办法以
stata
识别标签
的
方式
重新
导入
浏览 27
提问于2016-07-26
得票数 0
回答已采纳
3
回答
用PROC GLM自动计算参数估计
的
线性组合
sas
、
categorical-data
背景:我有一个
分类
变量
,X,有四个
级别
,作为独立
的
虚拟
变量
。因此,总共有三个虚拟
变量
表示x=1、x=2、x=3 (x=0是基线)。问题/问题:我希望能够计算这些虚拟
变量
的
线性组合(即使用SAS作为计算器)
的
值。例如,2*B1 + 2*B2 + B3。
在
Stata
中
,这可以使用lincom命令来完成,该命令使用存储
的
beta估计来计算参数
的</em
浏览 8
提问于2014-02-13
得票数 2
回答已采纳
1
回答
使用从
Stata
到R data.frame
的
值,但显示标签而不是值
r
、
import
、
stata
、
r-factor
假设我想操作一个名为"edu“
的
教育
变量
。
在
Stata
语言中,我使用数值值而不是 labels 来操作
变量
,只要我已经定义了标签,
数据
编辑器就会显示标签。例如,如果我想从标签低于高中学位
的
数据
集中删除,我只需要:但是
在
我导入
的
R data.frame
中
,标签是作为因素导入
的
。与每个因素相关联
的
级别
并不一
浏览 1
提问于2016-07-28
得票数 3
回答已采纳
1
回答
Django:是否可以仅在模型
级别
添加约束(而不是
在
DB
级别
)
django
、
django-models
有没有办法
在
Django
中
只
在
模型
级别
(而不是DB
级别
)添加唯一约束?因此,用户无法
在
不
绕过验证
的
情况
下从模型创建对象,但可以
在
没有模型验证
的
情况
下在
数据
库
级别
创建它们。
浏览 11
提问于2021-01-12
得票数 2
1
回答
多项式Logit模型Python和
Stata
的
不同结果
python
、
scikit-learn
、
statistics
、
stata
、
mlogit
我试图用python和
stata
建立多项logit模型。我
的
数据
如下:0 low Diploma 39.2 40.2 46.2其中ses代表社会经济地位,是一个名义
变量
,因此我使用以下命令
在
stata
中
创建了我
的
模型:
Sta
浏览 0
提问于2018-03-03
得票数 7
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Stata中的十个雕虫小技(下)
数据集的纵向合并——Stata 软件
hello,MySQL—odbcload读取MySQL数据
图像识别——MNIST
普林斯顿Stata教程-Stata编程
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券