开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在data.table中通过group操作编写可重用的列函数？

在data.table中，可以通过group操作编写可重用的列函数。data.table是R语言中用于处理大型数据集的高效工具，它提供了一种快速、灵活和内存高效的方法来操作数据。

要在data.table中通过group操作编写可重用的列函数，可以使用by参数来指定分组变量，并在j表达式中使用.SD和.BY来引用分组数据和分组变量。

下面是一个示例，演示如何在data.table中通过group操作编写可重用的列函数：

library(data.table)

# 创建一个示例数据表
dt <- data.table(
  id = c(1, 1, 2, 2, 3, 3),
  value = c(10, 20, 30, 40, 50, 60)
)

# 定义一个可重用的列函数
my_func <- function(x) {
  sum(x) / length(x)
}

# 使用group操作调用可重用的列函数
dt[, mean_value := my_func(value), by = id]

# 输出结果
print(dt)

在上面的示例中，我们首先创建了一个包含id和value两列的data.table。然后，我们定义了一个名为my_func的可重用的列函数，该函数计算给定向量的平均值。最后，我们使用group操作调用my_func函数，并将结果存储在新的mean_value列中，按照id进行分组。

这样，我们就可以通过group操作编写可重用的列函数，并在data.table中使用它们来进行数据处理和分析。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云数据仓库 ClickHouse：https://cloud.tencent.com/product/ch
腾讯云数据仓库 TDSQL-C：https://cloud.tencent.com/product/tdsqlc
腾讯云数据仓库 TDSQL-MariaDB：https://cloud.tencent.com/product/tdsqlmariadb
腾讯云数据仓库 TDSQL-MySQL：https://cloud.tencent.com/product/tdsqlmysql

相关搜索:Pandas:如何在pandas数据框架中的列上使用map来创建新列？使用lambda函数执行此操作时遇到问题从这个React Docs示例中，Clock如何在没有构造函数方法的情况下成为可重用组件？如何在Expressjs中编写可重用的函数代码？如何在php中通过逗号分隔成一行来编写查询来获取不同行的列值如何在React中调用可重用组件中的函数如何在R中编写一个操作数据结构的函数？如何在r中编写冒号操作符的S3函数如何在Spark列中编写函数，使列中的每个字段递增值？如何在Vuejs中创建可重用的函数？如何在Vue中创建可重用的外部函数？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

懒癌必备-dplyr和data.table让你的数据分析事半功倍

找到合适的packages并学习使用它，绝对会让我们数据分析工作事半功倍！我们有没有发现dylyr包中函数使用的一些规律？有的！...①第一个参数都是数据集df ②查询条件都是关于如何操作数据集的，在列上面进行操作 ③返回的都是新的数据集，不会改变原始数据集在介绍下一个包之前，我们先来引入一个dplyr包的综合运用： grouped..."B")] 使用j DT[,v1] #选择v1列那如果我要选择多列呢，大家注意一下这里不是用c()来选取了，而是通过.()来选取，注意前面有一个”.”号，所以我说data.table的语法有点奇怪呢...data.table把我们刚刚用group_by和summarise组合才能实现的功能，直接在一句代码里面就实现了，而且代码的可读性和可扩展运用性非常强！...以上讲的这些只是我工作中data.table用得最多的功能，它的强大之处还远远不止这些！如果你想深入，可以去官网下载文档，你绝对值得拥有！

2.4K7 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

由于业务中接触的数据量很大，于是不得不转战开始寻求数据操作的效率。于是，data.table这个包就可以很好的满足对大数据量的数据操作的需求。...data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。注意这里的，传递给下一个函数的第一个参数，然后就不用写第一个参数了。在dplyr分组求和的过程中，还是挺有用的。...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？...除了行，就是列的问题了。在data.table操作列，真的是费劲。。。常规来看， data[，.

7.5K4 3

R语言数据框、矩阵、列表的创建、修改、导出

数据框数据框的创建数据框来源主要包括用代码新建(data.frame)，由已有数据转换或处理得到(取子集、运算、合并等操作)，读取表格文件(read.csv,read.table等)及R语言内置数据函数...data.frame生成指定数据框的列名及列的内容，如代码所示，此时列名不需添加""，df1为变量名，格式为列名=列的向量*matrix矩阵与向量一样只允许同一种数据类型，否则会被转换，可以理解为二维的向量.../则为上一级）#文件是由生成它的函数决定的，不是由后缀决定的，save为csv实际上还是一个Rdata#readr包可以实现base包中的类似功能library(data.table)#其中的fread...函数可以避免此前的错误a<-fread("soft.txt",data.table = F)class(a)#但其不会有行名，且其会有一个data.table的数据结构多出来，可以设置data.table...merge函数可连接两个数据框，通过指定公共列使具有相同元素的行的列合并*merge函数可支持更复杂的连接，但通过inner_join等更为简便，后述test1 <- data.frame(name =

7.6K0 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

可以看到，计算结果中的第一列实际上是“SELLERID.CLIENT”，我们需要把它拆分成两列并调换顺序才行。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的...data.table包提供了一个非常简洁的通用格式：DT[i,j,by]，可以理解为：对于数据集DT，选取子集行i,通过by分组计算j。...(gender,ID)] #data.table用一步代码的意思是，通过性别gender...data.table比较简洁一步搞定，dplyr花了两步，不过也dplyr也可以通过%>%来实现一步搞定。%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。

20.5K3 2

R语言学习笔记之——数据处理神器data.table

dplyr::fliter() %>% select() %>% group_by() %>% summarize() 虽然可以借助管道函数进行代码优化，但是仍然无法与data.table的简洁想抗衡。...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...列索引的位置不仅支持列名索引，可以直接支持内建函数操作。 mydata[,.(flight/1000,carrier,tailnum)] 支持直接在列索引位置新建列，赋值符号为:=。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,....左手用R右手Python系列——数据合并与追加长宽转换：长宽转换仍然支持plyr中的melt/dcast函数以及tidyr中的gather/spread函数。

3.6K8 0

「R」数据操作（八）：dplyr 的 do, do, do

关于dplyr的基本操作我已经写过很多笔记了，不再赘述，这篇文章重点介绍 dplyr 的一个函数 do() 的用法。...与data.table类似，dplyr也提供了do()函数来对每组数据进行任意操作。例如将diamonds按cut分组，每组都按log(price) ~ carat拟合一个线性模型。...和data.table不同的是，我们需要为操作指定一个名称，以便将结果存储在列中。而且do()表达式不能直接在分组数据的语义下计算，我们需要使用.来表示数据。...该列不是典型的原子向量，每个元素都是模型的结果，包含线性回归对象的列表。...: #> (Intercept) carat #> 6.78 1.25 在需要完成高度定制的操作时，do()的优势非常明显。

1.5K3 1

能不能让R按行处理数据？

(fund_name)] 其中的关键在于拼接函数c()，它将不同列的向量拼接成了一列。另外，这个操作是不是有点熟悉？...对，这个步骤和cast和melt函数的作用类似，只不过这里直接用了data.table自己的语句。...事实上，data.table也整合了reshape中的cast和melt函数，并且将cast函数升级为dcast，感兴趣的小伙伴可以去研究一番。在拉直数据后，接下来要做的工作就很简单了。...我们只要把数据按照fund_name分组，然后对每组求scale的均值。唯一需要注意的有两点。首先，别忘了mean中的na.rm = T参数，它能够让函数忽略缺失值。...(fund_name)][is.finite(mean.scale)] 提示：把所有步骤打包成一步的关键在于“:=”符号的运用。本期总结本期大猫带领大家学习了如何在R中按照行进行处理。

1.3K2 0

「r」dplyr 里的 join 与 base 里的 merge 存在差异

今天在使用连接操作时发现：虽然都是合并操作函数，dplyr 包里的 *_join() 和基础包里面的 merge() 存在差异，不同的数据结构，结果也会存在偏差。...构造数据集下面是一个可重复的例子，构造两个数据集，一个是基于 data.frame 的列表，另一个是就要 data.table 的列表： x <- list( a = data.frame(r1...相同的数据，不同的操作函数存在差异在进行连接操作时，我们会发现 dplyr 的结果会报错！...所以使用 dplyr 提供的连接函数报错是正常的，但有意思的是，基础包提供的 merge() 函数可以完成连接操作，真是优秀（感兴趣的朋友可以看下测试下 merge 函数源代码）！...本质上是 data.table 体格的泛型函数不支持类似基础包中的操作。如何编写代码支持对上述数据集的连接操作？

1.5K3 0

Matt Dowle 演讲节选（二）

在2004年的第一天，Matt 离开了所罗门兄弟，也离开了 S-PLUS。他开始不断尝试，终于用自己的方式重写了[.data.frame这个函数，从而让sum(B)在 R 中也能得以运行。...换句话说，哪怕在 global environment 中存在一个叫做 B 的变量，那么data.talbe在运行的时候也会“认” DF 中的那个叫做 B 的列，而不是 global environment...例如代码DF[2:3, sum(B), by = group]，其中i的部分为2:3，表示对行的选择；j的部分为sum(B)，表示对列进行运算；by的部分对应by = group，表示按照变量group...一个更极端的例子是，加入你在 4G 内存中装下了一个 3G 的数据集，这时你想要删去其中的一列都是不可能的，因为在data.frame中，哪怕删除操作都会导致数据集的复制！...2014：data.table的现在 fread函数在演讲的最后（演讲在2014年），Matt 提到了当时他正在给data.table添加的新功能：fast read，也即fread函数。

1.1K4 0

《高效R语言编程》6--高效数据木匠

，stringi和stringr可以通过正则表达式更新脏字符串，assertive和assertr包可以在数据分析项目的一开始进行数据完整性的校验。...tidyr方便了收集与分割两个常见的操作 gather()收集是将列名换成新变量，将宽表变成长表，spread()是实现相反过程的函数。...与基本R中类似函数不同，变量无需使用 $ 操作符就可直接使用，设计与magrittr包的%>%管道操作符一起使用，以允许每个数据阶段写成新的一行。其是一个大型包，本身可以看成一门语言。...非标准计算代码中没有引号包裹的原始名字，这种方式叫做非标准计算（NSE），高效交互使用函数，减少键盘输入，允许Rstudio中自动完成。还是函数名多个_。...数据库与dplyr 必须使用src_*()函数创建一个数据源。#　使用data.table()处理数据是dplyr的替代，两个哪个好存在争议，最好学一个一直坚持下去。

1.9K2 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

比：=还快，通常和循环配合使用至于这个操作究竟有多快，可以看一下(参照官方manual的命令），另外个人觉得最牛的三个函数是set(）,fread,和fwrite fread fread(input...； drop,需要取掉的列名或者列号，要其它的； colClasses，类字符矢量，用于罕见的覆盖而不是常规使用，只会使一列变为更高的类型，不能降低类型； integer64,读如64位的整型数;...(a = .(), b = .())] 输出一个a、b列的数据框，.()就是要输入的a、b列的内容,还可以将一系列处理放入大括号,如{tmp <- mean(y);....(sv=sum(v))] #对y列求和，输出sv列，列中的内容就是sum(v) DT[, ...., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的

5.6K2 0

RNA-seq入门实战（三）：在R里面整理表达量counts矩阵

一般为了对样品进行分组注释我们还需要在GEO网站下载样品Metadata信息表SraRunTable.txt，接下来就需要在R中对输出结果进行操作，转化为我们想要的基因表达counts矩阵。.../counts/counts.txt', header = T,data.table = F)#载入counts，第一列设置为列名 colnames(a1) counts <...=list(symbol), FUN=sum) ###使用aggregat 将symbol列中的相同基因进行合并 tpm <- column_to_rownames(tpm,'Group.1') id...') 二、从salmon输出文件中获取counts矩阵需要用到tximport包从salmon输出文件中获取counts矩阵，在tximport函数中输入quant.sf文件路径、转换类型type =...DESeq2分析 file='salmon/1.counts.Rdata') ---- 通过以上步骤，成功从featureCounts或Salmon输出文件中获取了counts和tpm表达矩阵

15K4 5

如何在CDSW中使用R绘制直方图

1.文档编写目的 ---- Cloudera的新产品CDSW（Cloudera Data Science Workbench）集成了R、Scala、Python2、Python3等语言进行统计和数据分析...本文档主要讲述如何在CDSW中使用R语言绘制直方图和饼图，并使用Hive数仓作为数据源。...BY tt.scope" ## 执行SQL获取查询结果 tabledata <- dbGetQuery(conn, sql) ## 将SQL返回的结果转化为data.table数据集 VDT <-...BY tt.scope" ## 执行SQL获取查询结果 tabledata <- dbGetQuery(conn, sql) ## 将SQL返回的结果转化为data.table数据集 VDT <-...data.table(tabledata) ## 用order()让数据框的数据按 scope 列数据从大到小排序 VDT = VDT[order(VDT$scope, decreasing = TRUE

3.3K10 0

生信技能树 R语言入门第一周总结

(d); class(e); class(f)数据框中，每一列的所有数据只有一种数据类型，不同列的数据类型可不相同。...如果是根据行名合并，可使用cbind函数。可参考我的dataframe练习：https://cloud.tencent.com/developer/article/2238411?...，如通过logical取子集时，善用!...::fread('soft.txt',data.table = F)fread函数是一种较为智能的读文件函数，可以在日后实践中多尝试。...一些最基本的函数代替手动看/数数的方法：1、使用length和table函数；2、使用ncol和nrow，如取数据框b的最后一列：b[,ncol(b)]，删除b的最后一列：b[,-ncol(b)]3、最容易会犯的错误

1.1K9 0

数据流编程教程：R语言与DataFrame

readr是利用C++和RCpp编写的，所以执行的速度是相当快的，不过相对于直接用C语言写的data.table::fread()就稍微慢大概1.2-2倍左右。...3. purrr purrr向Scala这样的具有高级类型系统的函数式编程语言学习，为data frame的操作提供更多的函数式编程方法，比如map、lambda表达式。...2. ggvis ggvis是吸收了ggplot2、vega以及d3的精华，目标旨在配合shiny打造动态可交互的可视化组件。...data.table还参考了NoSQL中流行的Key-Value形式，引入了setkey()函数,为数据框设置关键字索引。...对比操作对比data.table 和 dplyr 的操作： 3. apply函数族 4. join 操作 5. 拼接操作更多操作详情可查看data.table速查表。八.

3.8K12 0

For循环与向量化（Vectorization）

通过对水友们问题的汇总，我们发现大多数水友存在一些R语言的应用误区，在此出一期关于该问题的解读。问题提出首先思考一个典型的增长率的计算的例子。假设我们有一列时间序列，每个都记录着时刻的值。...向量作为最基本的数据结构，其在进行底层编写的时候，进行了很大程度的优化设计。向量有时候作为一种基本的编写思路，是具有很高效率的。有鉴于此，我们通过R语言最底层的向量思维进行函数编写。...microbenchmark(growthRBV(1:10000), times = 1000) %>% as.data.table() time2[, median(time)/1e6] 0.084901 我们在函数中编写了另一个函数...data.table对于shift函数的优化又使其效率翻倍！！...利用data.table进行数据操作有着比R本身向量化更好的效率表现，如果自身对效率的要求更高，可以利用更底层的语言接口进行编写。最后还有一点需要注意：向量化并不能解决一切问题。

1.8K3 0

十步完全理解 SQL

上面语句的结果就是产生出了一个包含三个字段的新的表的引用。我们来仔细理解一下这句话：当你应用 GROUP BY 的时候， SELECT 后没有使用聚合函数的列，都要出现在 GROUP BY 后面。...（译者注：原文大意为“当你是用 GROUP BY 的时候，你能够对其进行下一级逻辑操作的列会减少，包括在 SELECT 中的列”）。需要注意的是：其他字段能够使用聚合函数： ?...通过 SELECT语句，你能对每一个字段进行操作，通过复杂的表达式生成所需要的数据。...SELECT 语句有很多特殊的规则，至少你应该熟悉以下几条：你仅能够使用那些能通过表引用而得来的字段；如果你有 GROUP BY 语句，你只能够使用 GROUP BY 语句后面的字段或者聚合函数；...当你的语句中没有 GROUP BY 的时候，可以使用开窗函数代替聚合函数；当你的语句中没有 GROUP BY 的时候，你不能同时使用聚合函数和其它函数；有一些方法可以将普通函数封装在聚合函数中； …

1.6K9 0

10个简单步骤，完全理解SQL

我们来仔细理解一下这句话：当你应用 GROUP BY 的时候， SELECT 后没有使用聚合函数的列，都要出现在 GROUP BY 后面。...（译者注：原文大意为“当你是用 GROUP BY 的时候，你能够对其进行下一级逻辑操作的列会减少，包括在 SELECT 中的列”）。...通过 SELECT语句，你能对每一个字段进行操作，通过复杂的表达式生成所需要的数据。...SELECT 语句有很多特殊的规则，至少你应该熟悉以下几条：你仅能够使用那些能通过表引用而得来的字段；如果你有 GROUP BY 语句，你只能够使用 GROUP BY 语句后面的字段或者聚合函数；...当你的语句中没有 GROUP BY 的时候，可以使用开窗函数代替聚合函数；当你的语句中没有 GROUP BY 的时候，你不能同时使用聚合函数和其它函数；有一些方法可以将普通函数封装在聚合函数中； …

7444 0

10个简单步骤理解SQL

我们来仔细理解一下这句话：当你应用 GROUP BY 的时候， SELECT 后没有使用聚合函数的列，都要出现在 GROUP BY 后面。...（译者注：原文大意为“当你是用 GROUP BY 的时候，你能够对其进行下一级逻辑操作的列会减少，包括在 SELECT 中的列”）。...通过SELECT语句，你能对每一个字段进行操作，通过复杂的表达式生成所需要的数据。...SELECT 语句有很多特殊的规则，至少你应该熟悉以下几条：你仅能够使用那些能通过表引用而得来的字段；如果你有 GROUP BY 语句，你只能够使用 GROUP BY 语句后面的字段或者聚合函数；...当你的语句中没有 GROUP BY 的时候，可以使用开窗函数代替聚合函数；当你的语句中没有 GROUP BY 的时候，你不能同时使用聚合函数和其它函数；有一些方法可以将普通函数封装在聚合函数中；

1K1 0

5个例子比较Python Pandas 和R data.table

另一方面，data.table仅使用列名就足够了。示例3 在数据分析中使用的一个非常常见的函数是groupby函数。它允许基于一些数值度量比较分类变量中的不同值。...pandas使用groupby函数执行这些操作。对于data.table，此操作相对简单一些，因为我们只需要使用by参数即可。示例4 让我们进一步讨论前面的例子。...我们使用计数函数来获得每组房屋的数量。”。N”可作为data.table中的count函数。默认情况下，这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。...data.table中使用减号获得降序结果。示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。...inplace参数用于将结果保存在原始数据帧中。对于data.table，我们使用setnames函数。它使用三个参数，分别是表名，要更改的列名和新列名。

3K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭