在R data.table中按组修剪均值

是指使用data.table包中的函数来按照指定的组对数据进行分组，并计算每个组的均值。修剪均值是一种统计方法，它可以通过去除一组数据中的最大值和最小值来减少异常值的影响，从而更准确地估计数据的中心趋势。

在data.table中，可以使用by参数指定要按照哪个列进行分组，然后使用mean()函数计算每个组的均值。为了实现修剪均值，可以使用fivenum()函数来计算每个组的五数概括（最小值、下四分位数、中位数、上四分位数、最大值），然后去除最小值和最大值，再计算剩余值的均值。

以下是一个示例代码：

library(data.table)

# 创建一个示例数据表
dt <- data.table(
  group = c("A", "A", "B", "B", "B", "C"),
  value = c(10, 15, 20, 25, 30, 35)
)

# 按组修剪均值
dt[, trimmed_mean := mean(value[fivenum(value)[2:4]]), by = group]

# 查看结果
print(dt)

输出结果如下：

   group value trimmed_mean
1:     A    10           10
2:     A    15           10
3:     B    20           25
4:     B    25           25
5:     B    30           25
6:     C    35           35

在上述示例中，我们按照"group"列进行分组，并使用fivenum()函数计算每个组的五数概括。然后，我们使用索引[2:4]选择除了最小值和最大值之外的剩余值，并使用mean()函数计算剩余值的均值。最后，我们将修剪均值存储在新的列"trimmed_mean"中。

这种按组修剪均值的方法适用于需要减少异常值影响的情况，例如在统计学、数据分析和机器学习等领域中。腾讯云提供了多个与数据处理和分析相关的产品，例如腾讯云数据仓库（TencentDB）、腾讯云数据湖（Tencent Cloud Data Lake）等，可以帮助用户进行数据的存储、管理和分析。具体产品介绍和链接地址可以参考腾讯云官方网站。

在R data.table中按组修剪均值

r、data.table、weighted-average

我有一个data.table，我想在它上面找到列performance按月的加权平均值。", "data.frame")) year month performance 2: 2015(month), .SDcols = c("performance")]1:

浏览 35提问于2021-06-06得票数 0

回答已采纳

2回答

如何在data.table中按十进制组计算统计数据

r、data.table、quantile

我有一个data.table，并希望按组计算统计数据。R) set.seed(1)这些组的定义应该是我如何计算出每个b的

浏览 1提问于2014-03-21得票数 9

回答已采纳

3回答

在data.table中使用‘on’对数据执行和写入函数

r、data.table

我在R中使用data.table，并尝试创建和执行一些函数，这些函数将对每个组进行一些计算(DT[i, j, by = ....])，但我需要在函数中的整个数据集上执行函数。例如，以虹膜数据为例，我可以做以下工作，以得到组和总体均值(“偏差”)之间的差异：dtIris <- data.table(iris) # Sample means- way“，以便使我的函数与by 参数在

浏览 4提问于2020-04-27得票数 0

2回答

R:我如何以编程方式遍历拆分的数据框架？

r、split、dataframe、iteration

我有一个数据集，其中一系列批次的数据按顺序存储在一个列中，并且为每个批次(也是顺序地)提供多个参数。该文件如下所示：R0001,Len,1.2500,1.234R0002,Len,1.2500,1.252,myCapSplit$R0001$Param)但是我想要做的是使用iter来迭代每个批次

浏览 1提问于2014-02-13得票数 2

回答已采纳

2回答

Pd.DataFrame中的自适应滚动均值

python、pandas、dataframe

我希望在数据帧上执行滚动平均值，但滚动平均值必须覆盖时间戳中的列的长度。例如，在time1中，计算所有列行(1)的滚动平均值，然后在time2上，对所有行(2)执行相同的计算，依此类推。此外，这是按组完成的。因此，如果它在组A上执行此操作，则必须进行某种重置，因为它会转到组B 它有点像这个主题：Computing rolling mean in data.table with a

浏览 59提问于2020-10-23得票数 0

回答已采纳

2回答

具有R中平均值列的频率表

r、frequency、frequency-distribution

14 #9 9 18 我更想要一个表，它不仅显示vector a的frequency，还将显示frequency of a以及相关的averages of vector b，如下所示的R

浏览 12提问于2020-11-03得票数 0

回答已采纳

1回答

在R data.table代码的Pandas中等效: df[，new_column :=列2/(1：.N)，by=(column1)]

python、pandas、pandas-groupby

我正在尝试寻找与下面的R data.table线相对应的熊猫。我想在Pandas中创建一个新的专栏。df与按column1分组的column2值的平均值。新列的值必须不同。当您遍历组的实例时，平均值会发生变化。例如，如果column1中的一个组的大小为15： v

浏览 10提问于2017-12-31得票数 0

1回答

聚合数据-按小组分列

r、dataframe、mean

6 11 663 3 4 24我试图将其转化为一个数据框架，以便计算每个变量(a、b和c)的平均值

浏览 2提问于2015-08-30得票数 0

回答已采纳

2回答

单变量:按id对数据集的输出进行修整

sas

在被问到的关于在表格中剔除前单变量的修剪平均值的问题之后：我想输出一个修剪的均值从一个proc，单变量，一个组。然而，ods的输出似乎不适用于noprint，而且有太多的组id无法解决。

浏览 2提问于2014-02-28得票数 0

回答已采纳

1回答

我希望在具有自适应窗口的data.table中按组计算移动平均值，以便在时间序列的开头没有NAs。我知道如何使用frollmean和设置adaptive = TRUE (例如，请参阅this线程中的jangorecki响应)。当我的data.table中的所有组的长度都相同时，我可以获得相同的代码，但当这些组的大小不同时，我会遇到错误。例如，如果我的数据是 tmp = data.table<

浏览 30提问于2019-08-23得票数 2

回答已采纳

1回答

Postgres群

sql、postgresql

col1 col2 val id B C 20 1 B D 5 2 我想得到每个组(col1，col2)的val的修剪平均值(5%)，以及val大于该组的修剪平均值的每个组的总病例数。修剪后的平均值应该与scipy.stats.trim_mean()函数返回的值相匹配。我正在使用下面的代码来计算每个组<

浏览 4提问于2021-04-23得票数 0

2回答

为data.table中指定的每个组创建变量

r、data.table

我想使用data.table为每个指定的组计算变量。为简单起见，我们假设数据在x1中是按组拆分的：a 3b 1我想为每个组的平均值创建一个变量，但我不知道如何为每个组建立索引：我需要将输出作为单独列中的data.table，因为它将被进一步处理： mean_a m

浏览 0提问于2013-05-31得票数 1

回答已采纳

2回答

将某个列中的NA替换为来自同一列的等键值。

r、data.table

我为一个基于criterium C的组创建了一个means列，现在我希望在整个专栏中填写这些方法，即使criterium C不适用。基本上，我想用为这个组计算的平均值替换NA，在下一个Data.table中可以看到grp、val和colum。2 16 1 8: 2 NA 010: 3 32 112: 3 32 1 因此，我想用同一组中<

浏览 5提问于2015-01-20得票数 2

回答已采纳

1回答

从数据帧中的组中重复采样并应用函数

r、data.table、repeat

目标是对data.table中的组进行采样，但将此过程重复"n“次，并提取每个行值的平均值。例如：DT = data.table(a=c(1,1,1,1:15,1,1), b=sample(1:1000,20)) x[[2]]x[[3]]x[[4]] 因此，为了获得每一行的平<

浏览 0提问于2014-12-10得票数 1

3回答

如何在rdatatable中传递`i`中的名称向量？

r、data.table

library(data.table)比方说，如果一个变量的值小于该变量的平均值，我想用零替换该变量的值。我想对一组变量这样做。这是base-r方式： dt[dt[[v]] < mean(dt[[v]]), (v) := 0]然而，如果有的话，我正

浏览 0提问于2021-04-05得票数 1

1回答

怎样才能使重复的方法按组跨行？

r、dplyr、data.table、tidyverse

当有两个标识符时，我想按组得到平均值。id2 = c("a","b", "c","c", "b","c", "a","b", "c","b"),我正试图用data.table来获得两个组的平均价值。我想用平均值创建另一列

浏览 1提问于2022-10-16得票数 2

回答已采纳

1回答

R Data.Table骨料

r、data.table、memory-efficient

library(data.table)DATA = data.table("STUDENT" = c(1:2000), "CLASS" = c(sample(1:6, size=2000, r =T)), "SCORE

浏览 1提问于2022-02-28得票数 2

回答已采纳

2回答

按R组划分的滚动平均值data.table

r、data.table

我想逐组计算YTD滚动平均值，从组的第一行开始，最后一行结束。下面的样本..。2,4,3,3,5,9,7,8,10,11)df <- data.frame(Group, Sales, Result) 结果列是我期望看到的滚动平均值

浏览 2提问于2016-06-23得票数 8

回答已采纳

3回答

以群最大值为条件的量程均值的求法

r、aggregate

这感觉应该不难，但我一直在挣扎，没有找到一个合适的答案，所以我想我会问。我有一个数据集，我想将其除以一个因子列，然后取平均值。这很容易。所以，我们只得到了8缸车的正确平均值，而不是4或6辆。

浏览 3提问于2017-05-03得票数 0

回答已采纳

1回答

条件修整均值在scala中的应用

scala、apache-spark、apache-spark-sql、spark-dataframe、amazon-emr

我试图达到80%的修剪平均值在scala的每一组，以消除异常值。但是，只有当该组中的记录数量至少超过10条时，才能应用这一方法。Boston", 2016, 150),).toDF("city", "year", "amount")考虑一下<e

浏览 0提问于2018-05-12得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在R data.table中按组修剪均值

相关·内容

在R data.table中按组修剪均值

如何在data.table中按十进制组计算统计数据

在data.table中使用‘on’对数据执行和写入函数

R:我如何以编程方式遍历拆分的数据框架？

Pd.DataFrame中的自适应滚动均值

具有R中平均值列的频率表

在R data.table代码的Pandas中等效: df[，new_column :=列2/(1：.N)，by=(column1)]

聚合数据-按小组分列

单变量:按id对数据集的输出进行修整

自适应窗长的data.table滚动均值计算

Postgres群

为data.table中指定的每个组创建变量

将某个列中的NA替换为来自同一列的等键值。

从数据帧中的组中重复采样并应用函数

如何在rdatatable中传递`i`中的名称向量？

怎样才能使重复的方法按组跨行？

R Data.Table骨料

按R组划分的滚动平均值data.table

以群最大值为条件的量程均值的求法

条件修整均值在scala中的应用

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐