在不破坏数据的情况下在Stata中重新编码分类变量的级别_在不破坏源映射和不重新构建的情况下替换webpack包中的变量 - 腾讯云开发者社区

stata、categorical-data、recode

我有这个变量，它接受以下值： tab expenditure Q11 | Freq.--------------------- Total | 625 100.00 我想更改排序，这样类别就不是按字母顺序排列的。replace 我还试着使用 recode expenditure (1 = 5) (2 = 1) (3 = 2) (4 = 3) (5 = 6) (6 = 4) 然而，这两种方法都只是改变了

浏览 85提问于2021-09-22得票数 1

回答已采纳

3回答

Python中决策树的序数特性

decision-trees

我有一个带有序数features.Each特性的数据集，可能有6到7个级别。基于我对R的搜索，如果你有序数数据，rpart对序数和标称的处理方式不同。stats.stackexchange.com/questions/94502/decision-tree-splitting-factor-variables 但是现在我正在用Python实现决策树，没有任何东西可以与rpart相比来处理序数数据Python似乎不能很好地处理分类</

浏览 0提问于2019-09-05得票数 0

3回答

如何去除R中的一个因子级？

r、stata

我需要将变量从R中的数据帧中删除，我的数据有一列有18个因素： drop if rama1 == 99 (rama1是因

浏览 1提问于2015-08-30得票数 1

回答已采纳

1回答

我可以在randomForest中同时使用分类和数值数据变量吗？

machine-learning、r、regression、random-forest

在我的数据中，很少有列包含分类数据，而其余的列包含数字数据。我想在r中使用来自randomForest库的随机森林回归器。那么，这个库是否可以在开箱即用的情况下处理这些数据(假设我已经对数据进行了预处理，并准备好在回归器中直接提供数据)？数据(沿这条线的内容)： Target | produc

浏览 0提问于2018-10-31得票数 1

1回答

我可以在不编码数据的情况下在Keras嵌入层中输入分类数据吗？

tensorflow、keras、bert-language-model、embedding

我正在尝试将多颜色的分类数据输入Keras嵌入层。我可以在没有编码的情况下在Keras嵌入层中输入分类数据吗？如果没有，那么哪种编码方法更适合从分类数据中检索上下文信息？

浏览 9提问于2022-09-10得票数 0

2回答

选择级别数等于1的分类变量。

r、apply、sapply、data-cleaning

在数据挖掘中进行预处理有时需要重新分组和重新编码分类变量。众所周知，一旦在R(即函数mapvalues)中对范畴变量进行了重新编码，就需要用df$variable <- factor(df$variable)更新分类变量，以便可以使用str(df)查看data.frame中的实际级别数。我编写了一段代码来

浏览 7提问于2015-07-17得票数 2

回答已采纳

1回答

目标编码:编码前后的缺失值估算

feature-engineering、encoding、data-imputation

我想为我的分类特性执行目标编码，尽管我不确定何时执行数据归并，如果其中任何一个缺少值。假设我有一些连续的特性，Cnt1-Cnt5 (没有NA)和两个分类特性，Cat1和Cat2，其中Cat2缺少值。哪种方法是正确的？假设Cat2将Cat1和Cnt1-Cnt5作为RF的预测因子，然后对分类变量进行目标编码。将Cat2编码为“不丢失”和“Cat1”，为Cat2构建R

浏览 0提问于2019-03-16得票数 3

1回答

使用read.dta13时“检测到双精度或浮点类型的系数代码”

我正在使用read.dta13包来加载数据。在数据集中有一堆带有Stata值标签的分类变量。Stata中的数据集如下所示：1101 2010 35 F 13034在Stata中，为了便于理解，我使用label define为分

浏览 0提问于2017-08-14得票数 2

2回答

如何在具有数值变量和分类变量的数据集上创建分类决策树？

decision-trees

我在这份工作中对数据科学和学习东西很陌生。我是一名欺诈分析师，我的工作是根据数据预测应用程序是否具有欺骗性。在进入许多高级模型之前，我被要求在dataset上构建决策树。现在，我有1500列的数据集；一些分类和一些数字。不同的分类变量有不同的级别；有些是二进制变量，有些是100+级别。我遇到了这样一个事实:只

浏览 0提问于2021-08-04得票数 0

2回答

分类变量的Stata排序与合并

categorical-data、dataset、stata、data-management

我正在将Stata中的两个数据集合并在一起，并提出了一个潜在的问题。我计划以完全相同的方式对两个数据集共有的几个分类变量进行sort。然而，几个分类变量在一个数据集中比另一个数据集中有更多的类别。我已经足够小心地确保编码在两个数据集中都匹配(例如，在数据集

浏览 1提问于2013-06-15得票数 1

1回答

不同类别的失踪

database-design、normalization、datatypes、database-recommendation、metadata

大多数数据库系统可以表示缺失的值，通常是“空值”或类似的值。但是，如果我想代表不同类别的缺失数据呢？对于分类数据来说，这不一定是一个大问题。只需为每种缺失类型创建额外的类别即可。但是，在表示连续数据(例如收入)时，这可能是一个更具挑战性的问题。有些人会使用代码(如99999,99998,99997 )来表示错误，让用户来识别这些值丢失，并在执行分析时对它们进行重新编码。我想避免这种情况</

浏览 0提问于2019-02-01得票数 1

1回答

从分类变量生成虚拟变量

sas、stata、dummy-variable

如何在SAS中为数据集中每个分类变量的每个值创建一个虚拟变量(编码为0或1)？因为我有很多变量，所以我想做一些像循环这样的事情。在Stata中，我将使用以下代码： tabulate `var', gen

浏览 1提问于2020-03-10得票数 1

1回答

R:在另一个变量值为NA的情况下，如何将变量的值重新编码为NA

我正在清理一个数据集，当DebtRatio的值为NA时，我需要对变量DebtRatio进行重新编码，以获得值NA。默认情况下，这不是真的，因此具有NA的值为DebtRatio (自然)提供了疯狂的值。然而，这些情况有各种其他有趣的信息，所以我不希望完全删除它们。只需将这些情况的值重新编码到NA即可。然而，当我运行我的<

浏览 3提问于2015-06-11得票数 0

回答已采纳

2回答

使用虚拟变量进行多个分类变量的机器学习

python、machine-learning、dummy-variable

我希望使用Python对一些拥有大量分类变量的数据进行多元线性回归或Logistic回归。我知道，有一个范畴变量，我需要把它转换成一个虚拟，然后移除一种类型的虚拟，以避免冒充，然而，是否有人熟悉在处理多个类型的范畴变量时应该采取什么方法？我对每个人都做同样的事吗？例如，将每种类型的记录转换为一个虚拟变量，然后为每个类型删除一个虚拟变量，以避免冒充？

浏览 7提问于2017-05-24得票数 1

回答已采纳

3回答

对分类变量进行排序有优势吗？

r、modeling、categorical-data

有人建议我最好在适当的地方对分类变量进行排序(例如，短小于中，小于长)。我想知道，在将分类变量建模为解释变量的上下文中，将分类变量按顺序对待而不仅仅是简单的分类变量有什么具体的优势？

浏览 2提问于2014-02-06得票数 2

1回答

如何将标签重新导入Stata

excel、stata、labels

我目前正在尝试将数据从stata导出到excel (并在excel中创建pivot和vlookup )，然后将其重新导入到Stata中。除了带有标签的变量导出为"1 very good“或没有标签"1”，并作为字符串导入，或者在没有标签的情况下作为字符串导入外，其他一切都按预期工作。有没有办法以stata识别标签的方式重新导入

浏览 27提问于2016-07-26得票数 0

回答已采纳

3回答

用PROC GLM自动计算参数估计的线性组合

sas、categorical-data

背景:我有一个分类变量，X，有四个级别，作为独立的虚拟变量。因此，总共有三个虚拟变量表示x=1、x=2、x=3 (x=0是基线)。问题/问题:我希望能够计算这些虚拟变量的线性组合(即使用SAS作为计算器)的值。例如，2*B1 + 2*B2 + B3。在Stata中，这可以使用lincom命令来完成，该命令使用存储的beta估计来计算参数的</em

浏览 8提问于2014-02-13得票数 2

回答已采纳

1回答

使用从Stata到R data.frame的值，但显示标签而不是值

r、import、stata、r-factor

假设我想操作一个名为"edu“的教育变量。在Stata语言中，我使用数值值而不是 labels 来操作变量，只要我已经定义了标签，数据编辑器就会显示标签。例如，如果我想从标签低于高中学位的数据集中删除，我只需要：但是在我导入的R data.frame中，标签是作为因素导入的。与每个因素相关联的级别并不一

浏览 1提问于2016-07-28得票数 3

回答已采纳

1回答

Django:是否可以仅在模型级别添加约束(而不是在DB级别)

django、django-models

有没有办法在Django中只在模型级别(而不是DB级别)添加唯一约束？因此，用户无法在不绕过验证的情况下从模型创建对象，但可以在没有模型验证的情况下在数据库级别创建它们。

浏览 11提问于2021-01-12得票数 2

1回答

多项式Logit模型Python和Stata的不同结果

python、scikit-learn、statistics、stata、mlogit

我试图用python和stata建立多项logit模型。我的数据如下：0 low Diploma 39.2 40.2 46.2其中ses代表社会经济地位，是一个名义变量，因此我使用以下命令在stata中创建了我的模型：Sta

浏览 0提问于2018-03-03得票数 7

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云