我有一组包含多个变量的数据。其中一个变量-阶乘包含组的命名- A,B,C等。其余的变量是数字的。
> data1
Group Value
1 A 23
2 A 25
3 B 1
4 C 15
5 C 11
6 C 14
7 B 3
8 B 4
9 B 2
10 C 19
对于进一步的统计计算,我想从数据集中排除包含特定组(例如X)的行,但条件是该组在dataframe n次中找到(例如,少于2次)。
我之前看到的材料
我正在处理极端干燥的事件,并试图获得一些关于他们的特点的信息。这是我的数据的一个例子:
dat <- data.frame(length= c(39,1,1,1,98,1,1,1,57,1,1,1,34,1,1), value = c(0,-1.111,-1.645,-1.285,0,-1.223,-1.369,-1.007,0,-1.083,-1.675,-1.119,0,-1.554,-1.6228))
行是月份,因此列'length‘用数字1标识干燥月份,而列'value’则记录干事件的严重程度。我想得到的是,一方面,干燥事件的中位数和最大长度,但考虑到每组连
我有一个与下面的数据相似的数据集
Type Count
A 0.022496545
A 0.969600752
A 0.476144762
A 0.142649351
A 0.902891034
A 0.004099406
A 0.80460619
A 0.642014007
A 0.688212724
A 0.879709931
B 0.886410732
B 0.803057447
B 0.203613404
B 0.606411333
B 0.886645412
B 0.418132624
B 0.65350920
我有一个包含两列的数据框,"Type“和"Stats”。我希望每种类型都有一行,所有的统计数据都在单独的列中。例如,我的数据框如下所示:
Column Type has values: A A A A B B B B
Column Stats has values:15 2 73 12 12 6 52 17
我希望它看起来像这样:
Column Type has values: A B
Column Stat1 has values: 15 12
Column Stat2 has values: 2 6
Column Stat3 has values: 73 52
Colu
我有一个数据集,看起来像:
id | X | Y
1 | 5 | a
1 | 6 | a
1 | 9 | a
2 | 2 | f
2 | 6 | f
列Y是组id中相同的字符串或因子。在data.table中,我试图按组进行聚合,并得出一些统计数据,例如,X的平均值( id )。我也想得到Y。最终的结果是
id | X | Y
1 | 6.66 | a
2 | 4 | f
如果没有因子/字符串变量,我在data.table中这样做的方式是dt[,.(X = mean(X)), by = .(id)]。如果Y是一个组内相同的数值变量,我也可以使用max, min, me
我有一个如下所示的数据集:
Employee Month CSAT
ABROWN February 4
ABROWN January 5
ABROWN March 3
ABROWN March 5
JSMITH February 5
JSMITH January 3
JSMITH February 5
JSMITH March 5
JSMITH February 5
JSMITH J
我有一个R数据框架,格式如下:
column1 column2
NA NA
1 A
1 A
1 A
NA NA
NA NA
2 B
2 B
NA NA
NA NA
3 A
3 A
3 A
df = structure(list(column1 = c(NA, 1L, 1L, 1L, NA, NA, 2L, 2L, NA,
NA, 3L, 3L, 3L), colu
我有一个带有文本评论的专栏,另一个有评级的专栏:
Content Rating
"bluetooth is bad" 1
"head unit crashes" 2
"remote works awesome" 5
我想输入一组关键字,并统计它们在评论中的出现,按不同的评级。
简单地说,找出不同的人(评级定义了队列)提到的最多的东西。
Rating Word Count
1 bluetooth 1
1 head unit 0
给出这样的数据:
COUNTRY CITIZENS SURFACE
A 20000000 40
A 80000000 78
B 3000000 120
B 200000 27
C 10000000 56
A 5600000 20
C 10000000 30
B 2500000 20
我想用对应于每个国家级别公民的最大值的行来划分数据。
我用dplyr得到了每个国家的“公民”的最大值,并对其进行了总结,但我无法为每个最大值提取相应的表面值
Stata有一个非常好的命令egen,它可以轻松地计算一组观察的统计数据。例如,可以计算每个组的最大值、平均值和最小值,并将它们作为变量添加到详细的数据集中。Stata命令是一行代码:
by group : egen max = max(x)
我从未在R.summarise包中找到相同的命令,这使得计算每个组的统计信息变得很容易,但是接下来我必须运行一个循环来将统计数据与每个观察相关联:
library("dplyr")
N <- 1000
tf <- data.frame(group = sample(1:100, size = N, replace = TR
我有一个包含组和值的数据格式。首先,我计算了每组99%的分位数。现在,我要删除每个组99%分位数以上的值。
df<-data.frame(group = rep(c("A", "B"), each = 4),
value = c(c(6,5,80,4,60)*10,3,5,4))
# data
group value
1 A 60
2 A 50
3 A 800
4 A 40
5 B 600
6 B 3
7 B 5
8