按ID对观测值进行分组，同时创建特征变量

stata、survey、dummy-variable

我正在进行一项针对厄瓜多尔个人的调查，我想分析每个家庭的特征。每个人都有一个houseID，所以我想我需要使用这个变量对他们进行分组，同时还需要创建一些关于他们的特征的额外变量:例如，如果一个家庭有两个或更多的妇女，那么一个虚拟人就是1。

浏览 1提问于2017-01-19得票数 1

回答已采纳

3回答

识别R中六个变量的所有组合

r、combinations、permutation

我有一个有6个变量和250个观察结果的数据框架，如下所示： ...我想识别数据中所有变量的组合例如，我知道每个变量都有20个“是”的观测结果。我正在进行对等分组分

浏览 2提问于2015-06-23得票数 4

回答已采纳

1回答

特征选择、聚类、降维算法的区别

machine-learning、cluster-analysis、pca、feature-selection

有人能指出特征选择和聚类以及降维算法之间的区别吗？聚类帮助我们指出哪些变量簇清楚地定义了输出。特征选择+聚类不是和降维算法一样吗？

浏览 4提问于2015-10-27得票数 0

1回答

使用dplyr (n_distinct等效？)

r、dplyr

我正在用dplyr和group_by()总结数据，并试图计算每个不同分组变量的观测数的平均值。df<-data.frame(id=c('A', 'A', 'A', 'B', 'B', 'C','C','C'), id.2=c('1', '2', '2',

浏览 2提问于2022-04-17得票数 2

回答已采纳

1回答

Stata中多个观测值(面板数据)的互斥性

stata

我想根据曝光是否相互排斥，按id对exposure进行分组。请参考数据示例。* Example generated by -dataex-.To install: ssc install dataexinput float id str1 exposure l

浏览 32提问于2021-02-16得票数 1

回答已采纳

1回答

R ggplot2散点图:为偏离(回归) geom_smooth线的程度添加颜色

r、ggplot2、colors、scatter-plot

我正在尝试用ggplot2创建一个具有回归线的散点图(两个连续变量)。我的小数据集(年平均值)将大多数数据点放在回归线上或靠近回归线，一些观测值放在更远的地方。是否可以根据观测值与回归线的距离对散点图上的观测值进行颜色编码？到目前为止，我自己手动创建了变量的颜色值分组，但这看起来有点偏颇。如果可能的话，我想要一些自动的东西。element_bl

浏览 25提问于2020-01-22得票数 1

回答已采纳

6回答

RMSE (均方根偏差)计算

r、statistics、equation

我对目标变量Wavelength进行了从V1到V12的数字特征观测。我想计算Vx列之间的均方根误差。数据格式如下。这是我找到的一个链接，但我不确定如何才能获得y_pred：对于下面提供的链接，我认为我没有预测值：

浏览 1提问于2014-10-07得票数 11

3回答

如何对高基数分类特征进行预处理？

machine-learning、data-mining、logistic-regression

具有分类数据类型的一列具有1421种不同类型的值。我正在尝试训练logistic回归模型以及我拥有的其他数据。我的问题是:上面描述的高基数列是否会影响我正在训练的模型？如果是，我该如何对该列进行预处理，以使其具有较少的不同值？

浏览 0提问于2015-09-01得票数 2

1回答

按组计数并分配给新变量

python、pandas

我想知道是否有更容易的方法从以下数据创建变量"freq_t1“和"freq_t2”(按id分组)：import pandas as pd 'id':[1,1,1,2,2,2],})df = pd.DataFrame({ 'id':[1,1

浏览 0提问于2019-05-21得票数 3

回答已采纳

1回答

dplyr计数事件，如果没有发生的话

r、count、dplyr

我对dplyr包也有同样的问题。我的数据集有3个变量:个体的ID=数，实验的Exp=number，测试容器中的Zone=区(1个顶部2个中心3个底部)。我尝试对观察到的数据进行计数，并按ID和Exp进行分组，它适用于下面的等式。x<-data%>% count(Zone) 问题是，当一个ID不在区域1中时，新数据集将不会显示这一点，

浏览 9提问于2018-12-13得票数 1

1回答

(从Stata到R)数据挖掘和变量创建:计数、列表、排序、egen

r、sorting、data-mining、stata、subset

从Stata到R的过渡一直是令人兴奋和具有挑战性的，但我在R中仍在努力的一个领域是数据探索，然后是随后的变量创建。具体来说，如何如果var 2==3 /*计数var2 */上的值为3的观测数如果var7 <8 /*lists列出id，/*lists */上值小于8的观测的

浏览 4提问于2014-12-18得票数 0

回答已采纳

1回答

在sas中映射列名

sas、compare、two-columns

我有两张桌子如果列数据相同因为它们中的数据是相同的

浏览 38提问于2016-04-29得票数 0

1回答

迭代数据集中的要素时，我得到了IndexError:索引22437超出了大小为22437的轴0的界限

python、dataframe

我正在根据只有4个唯一值的另一个特征对我的数据集中的一个特征的值进行分组。此数据集中的总观测值为22438。在这里，我必须根据键将df:,1:2中的值附加到值(列表)中。

浏览 14提问于2018-07-26得票数 0

2回答

分组变量的t检验

r、statistics、grouping

我得到了一个包含36个变量和74个观测值的数据框架。我想通过1个分组变量(具有两个级别)对35个变量进行两个样本配对测试。t.test(age~group) 但是，有没有一种方法可以用一段代码测试所有35个变量，而不是逐个测试？

浏览 1提问于2013-12-13得票数 0

2回答

从SQL表中选择行，其中第一列中的项在第二列中具有唯一值

sql

我有一个SQL表countryTable，如下所示：---+-------- 2 | GB 3 | AU 5 | CA4 | USid | country 1 | US 5 | CA 因为ids 2&4映射到(

浏览 5提问于2022-08-17得票数 1

回答已采纳

3回答

R: Shapiro分组测试不会产生p值和损坏的数据帧警告。

我在R中有一个非常大的data.frame，对11个变量进行了6288次观测。我想对每个变量按组进行Shapiro测试，但按两个不同的因素(数量和处理)分组。我想得到W统计量和P值的数据。原始数据集每组包含16个观测值(1High、1Low等；总groups=400)和一个偶然的NA；此示例数据集包含每组6个观测数据(1高、1低、2高、2低；gr

浏览 2提问于2015-05-12得票数 2

回答已采纳

1回答

scikit的一次热编码是如何分配假人的？

python、scikit-learn、one-hot-encoding

对于一篇研究论文，我将使用lasso模型来进行分类和特征选择。我准备使用一个热编码来处理我的分类数据，并将需要确定哪些特征映射到原始分类值，以确定哪些功能最终被选择为最终模型。例如，，假设我对某个变量的分类值是{1，2，3，4}。单热编码是否按时间顺序将它们组织成假人(即Does 1，使值2为第一个虚拟，值3为第二个虚拟，值4为第三个虚拟？还是根据在扫描行时查找不同类别值的顺序进行

浏览 2提问于2016-12-26得票数 0

1回答

Postgres:按特定时区的日期分组

postgresql

假设我们有一个Postgres表： id integer NOT NULL,)SELECT COUNT(observations.id),GROUP BY DATE(date

浏览 0提问于2020-11-12得票数 1

4回答

如何在一列上分组，而另一列对整个数据帧进行排序？

python、pandas

我有一个像这样的数据文件： 1 50 1 0 2 0 3 0但我需要它按总按降序排序，同时保持按id分组的行。如下所示： 2 100 2 0 3

浏览 0提问于2021-05-15得票数 0

回答已采纳

2回答

在求和前对R数据进行多次分组

r、grouping、aggregate、summary

我已经创建了以下数据作为一个例子。"B", "C")Matrix <- cbind(Value, Group, Type) 我想先根据' group‘变量，然后按'Type’变量对上面的数据进行分组</

浏览 3提问于2017-09-19得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

按ID对观测值进行分组，同时创建特征变量

相关·内容