data.table执行group by操作的函数

data.table是一个在R语言中用于数据处理和分析的包。它提供了一种高效的数据操作方式，特别适用于大规模数据集的处理。在data.table中，group by操作可以通过by参数来实现。

在data.table中，group by操作可以使用by参数来指定一个或多个列作为分组依据。通过指定by参数，可以将数据集按照指定的列进行分组，并对每个分组进行相应的操作。

data.table执行group by操作的函数包括：

DT[, .(expr), by = .(grouping_columns)]：这是最常用的group by操作函数。其中，DT是一个data.table对象，expr是需要计算的表达式，grouping_columns是一个或多个列名，用于指定分组依据。该函数将按照grouping_columns指定的列进行分组，并对每个分组计算expr指定的表达式。
DT[, .(expr1, expr2, ...), by = .(grouping_columns)]：该函数可以同时计算多个表达式。通过在.()中指定多个表达式，可以在group by操作中同时计算多个结果。
DT[, .(expr1 = fun1(column), expr2 = fun2(column), ...), by = .(grouping_columns)]：该函数可以在group by操作中使用自定义函数。通过在表达式中调用自定义函数，可以对每个分组进行自定义的计算。

data.table的group by操作具有以下优势：

高效性：data.table使用了一种称为"优化过的列存储"的数据结构，使得数据的访问和操作速度非常快。在处理大规模数据集时，data.table比其他包（如dplyr）更高效。
内存管理：data.table使用了一种内存管理技术，可以在处理大规模数据时减少内存的使用。这使得data.table非常适合处理需要占用大量内存的数据集。
语法简洁：data.table提供了一种简洁而直观的语法，使得进行数据操作和分析变得更加容易。通过使用data.table，可以用更少的代码实现相同的功能。

data.table的group by操作适用于各种数据分析和处理场景，包括但不限于：

数据聚合：通过group by操作，可以对数据进行聚合计算，如求和、平均值、计数等。
数据分组：通过group by操作，可以将数据按照指定的列进行分组，便于进一步的分析和处理。
数据筛选：通过group by操作，可以根据分组结果对数据进行筛选，只保留符合条件的数据。
数据汇总：通过group by操作，可以将数据按照指定的列进行分组，并对每个分组进行汇总统计，如计算每个分组的最大值、最小值、中位数等。

腾讯云提供了一系列与数据处理和分析相关的产品，可以与data.table结合使用，以实现更强大的数据处理能力。其中，推荐的产品包括：

腾讯云数据仓库（TencentDB for TDSQL）：腾讯云数据仓库是一种高性能、高可靠的云数据库产品，适用于大规模数据存储和分析。它提供了强大的数据处理和分析功能，可以与data.table结合使用，实现更高效的数据处理和分析。
腾讯云大数据平台（Tencent Cloud Big Data）：腾讯云大数据平台是一个集成了多种大数据处理和分析工具的云平台。它提供了丰富的数据处理和分析功能，包括数据仓库、数据湖、数据计算等，可以与data.table结合使用，实现更全面的数据处理和分析。

以上是关于data.table执行group by操作的函数、优势、应用场景以及推荐的腾讯云相关产品的介绍。希望对您有所帮助。

data.table执行group by操作的函数

、、、

我有一个示例data.table数据有列- BP - basepair、状态为case和control。值是按状态分层的每个BP的值。我需要获得按BP和STATUS分组的值的平均值，这是我使用以下代码获得的：但是，我想创建一个函数来执行此任务。<code>A4</code> 我设置了<

浏览 5提问于2020-08-03得票数 0

回答已采纳

3回答

在data.table中使用‘on’对数据执行和写入函数

、

我在R中使用data.table，并尝试创建和执行一些函数，这些函数将对每个组进行一些计算(DT[i, j, by = ....])，但我需要在函数中的整个数据集上执行函数。例如，以虹膜数据为例，我可以做以下工作，以得到组和总体均值(“偏差”)之间的差异：dtIris <- data.table(iris) # Sample means，是否有一种方

浏览 4提问于2020-04-27得票数 0

2回答

在dplyr中导致长度不等于1或组长度的分组操作

、、

我不确定应该使用哪个函数来执行以下操作：dt = data.table(a = 1:4, b = 1:2) #6: 2 2library(dplyr)#Erro

浏览 0提问于2014-02-12得票数 16

回答已采纳

1回答

将整个data.table传递给j表达式

、

我想在分组的data.table上的j表达式中使用所有列作为对象(就像tidyverse的group_modify函数一样)。到目前为止，我通过执行以下操作完成了这项工作： dt[, some_function(data.table(.SD)), some_column, .SDcols = colnames(dt)] 但这感觉很笨拙，有没有其他(更简单的)方法呢？

浏览 18提问于2021-01-26得票数 0

回答已采纳

1回答

如何根据函数中传递的参数对data.table对象进行子集？

、

我很难弄清楚如何在一个函数中子集R中的data.table。下面是我的代码，为了简单起见，我使用了虹膜数据集。我的目标是迭代一个数据集，并在每个子组中执行许多不同的功能，并将所有结果值存储在一个表示该子组的数据集中。任何帮助都是非常感谢的。谢谢!<- data %>% distinct('col_var') group_dt <- data['col_var

浏览 2提问于2018-06-03得票数 1

回答已采纳

2回答

如何在data.table列中放置不同大小的向量

、

stats::aggregate函数实现了一个简单的逐组操作。它收集向量中每个组的元素。我想让它更快地使用data.table包。然而，我无法用data.table再现想要的行为。C","D","A","B"))by_group_aggregate <- aggregate(x = df$val, by

浏览 0提问于2016-02-24得票数 2

回答已采纳

1回答

将向量与大型data.table合并以执行计算的内存高效方法(R)

、、、、

data: ~ 100 group_code = rep(seq(1:nGrp ), times= 3*nYears我所需要的最重要的运算，包括用var1 = sd= var2，由group_code，年份和模型生成x的正态分布。(group_code, Year, model )] 最后一次操作在我的桌面上是相当快的。但是

浏览 2提问于2021-02-02得票数 2

回答已采纳

1回答

data.table:按组，然后使用自定义函数进行聚合，返回几个新列

、、、、

在data.table中，如何执行以下操作： library(data.table)

浏览 1提问于2019-01-23得票数 0

回答已采纳

3回答

向R中自定义函数中的data.table传递参数的一个简单的可重复示例

、、

很多人都问过类似的问题，但我既没有找到一个简单的问题，也没有找到一个简单的答案。以下是我的做法：library(data.table)mtcars[,sum(mpg), gear] # gear V1#2: 3 241.6但是，如果我使用

浏览 6提问于2019-10-31得票数 4

回答已采纳

3回答

data.table中扩散时间的分组均值失效

、、、、

(AvgTime = mean(DiffTime)), by = Group]1.925988e+00 days剩下的是NA值，基本的round()函数和format()函数都返回警告：在平均值(DiffTime奇怪的是，如果我

浏览 6提问于2017-11-13得票数 5

回答已采纳

1回答

R data.table -使用.SD时如何参照修改？

、、、

我刚接触data.table，不明白现在我可以通过引用修改，同时使用.SD符号对所选列执行操作吗？我有两个例子。示例1 > DT <- data.table("group1:1" = 1, "group1:2" = 1, "group2:1" = 1) group1:1 group1:2 group2我知道将操作</

浏览 16提问于2021-01-30得票数 2

1回答

添加括号时减除`data.table`的速度下降

、

最近，我在一些旧代码中注意到，在添加data.table和反复执行函数(在我的例子中，计算相关矩阵)时，我已经包括了额外的方括号。Group', with=F]) rcorr(DT[subgroup, !'Group', with=F]) (差异在subgroup之后)。加上额外的括号，data.table是否必须执行一些额外的计算？

浏览 2提问于2015-07-23得票数 7

回答已采纳

2回答

首先，我将描述我正在执行的任务。我必须反复计算一个分组和，通常在5到10倍之间。在每次迭代时，执行分组和的列中的值都会随着每次迭代而改变，但我所分组的列不会。然而，据我所知，在data.table中没有一种方法能够提供比这更好的性能。最近，我开始对Rccp进行实验，并编写了以下函数来执行分组和： cppFunction('NumericVector Group_Total(NumericV

浏览 11提问于2022-04-22得票数 6

回答已采纳

1回答

在pandas groupby模式中，使用用户定义的函数，将其应用于多个列，并将结果分配给新的pandas列

、、

我有以下数据集： > dt1: 1 5 a3: 3 7 b return(a.min() + b.max()) 我想在groupby模式(by group)中将此函数应用于a和b列，并将其分配给数据帧的新列c。我希望得到的结果是 > dt1: 1 5 a

浏览 4提问于2020-09-18得票数 0

回答已采纳

1回答

如何优化for循环以填充数据帧R

、、、

我有一个计算距离矩阵的数据帧。col2=2*rnorm(10),col3=5*rnorm(10))在计算出的距离矩阵中，我创建了一个列表，显示每个点之间的距离。library(reshape2)由此，我做了一个循环来提取每个点的比较

浏览 5提问于2017-02-09得票数 1

1回答

将两列数据表转换为数据表，其中一列具有冒号，另一列具有值。

、

有什么更好的方法来执行tdt，如下面的示例所示，只使用基函数或data.table函数和操作？library(data.table)dt# 1: a 1# 3: c 3# 5: e 5 tdt <- data.table(t(matrix(dt$b, dimnames = list(

浏览 3提问于2016-10-26得票数 1

回答已采纳

1回答

如何才能在dplyr中进行变异而不失去顺序？

、、

使用data.table，我可以执行以下操作：dt = data.table(a = 1:2, b = c(1,2,NA,NA))#1: 12#4: 2 NA # a b#2: 2 2#4: 2 2library(dplyr)

浏览 0提问于2014-02-12得票数 7

1回答

在嵌套data.table中通过引用修改列表列

、

在嵌套的data.tables中使用data.table的list列时，很容易在列上应用函数。lapply(dt.mtcars, nrow)), by = gear] 1: 4 123: 5 5 我希望执行相同的过程，并使用操作符:=对列中的每个data.table进行引用修改。Using := in .SD's j is reser

浏览 2提问于2017-10-09得票数 0

回答已采纳

4回答

如何将median()-values合并到R中的table()-function中

我在p$studie==1,2,3,4,5收集了来自五个不同国家的数据。所有患者的年龄都是已知的，并存储在p$age中。我想列出每个p$studie的中位数(p$age)。这里有没有直接的解决方案？

浏览 31提问于2019-12-03得票数 1

回答已采纳

1回答

data.table group by non-id表中的列

、

考虑以下两个data.tables：y <- data.table(id=c(1,2,3,4),group=c(1,2,1,2))setkey(y,id)x[y,cost:=(cost-mean(cos

浏览 2提问于2016-05-18得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

data.table执行group by操作的函数

相关·内容

data.table执行group by操作的函数

在data.table中使用‘on’对数据执行和写入函数

在dplyr中导致长度不等于1或组长度的分组操作

将整个data.table传递给j表达式

如何根据函数中传递的参数对data.table对象进行子集？

如何在data.table列中放置不同大小的向量

将向量与大型data.table合并以执行计算的内存高效方法(R)

data.table:按组，然后使用自定义函数进行聚合，返回几个新列

向R中自定义函数中的data.table传递参数的一个简单的可重复示例

data.table中扩散时间的分组均值失效

R data.table -使用.SD时如何参照修改？

添加括号时减除`data.table`的速度下降

用data.table实现分组操作的性能

在pandas groupby模式中，使用用户定义的函数，将其应用于多个列，并将结果分配给新的pandas列

如何优化for循环以填充数据帧R

将两列数据表转换为数据表，其中一列具有冒号，另一列具有值。

如何才能在dplyr中进行变异而不失去顺序？

在嵌套data.table中通过引用修改列表列

如何将median()-values合并到R中的table()-function中

data.table group by non-id表中的列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐