组合"by“和"on”以连接并创建data.table的汇总列

组合"by"和"on"以连接并创建data.table的汇总列是通过使用data.table包中的by和on参数来实现的。

在data.table中，by参数用于指定要按照哪些列进行分组，而on参数用于指定要连接的列。

首先，我们需要加载data.table包，并创建一个示例数据表：

library(data.table)

# 创建示例数据表
dt1 <- data.table(ID = c(1, 2, 3, 4),
                  Value1 = c(10, 20, 30, 40))

dt2 <- data.table(ID = c(1, 2, 3, 4),
                  Value2 = c(100, 200, 300, 400))

接下来，我们可以使用by和on参数来连接并创建汇总列：

# 使用by和on连接并创建汇总列
dt3 <- dt1[dt2, on = "ID", Value2 := i.Value2]

在上面的代码中，我们使用on = "ID"指定了连接的列为"ID"列。然后，我们使用Value2 := i.Value2将dt2中的"Value2"列连接到dt1中，并创建了一个名为"Value2"的汇总列。

最后，我们可以查看结果：

print(dt3)

输出结果如下：

   ID Value1 Value2
1:  1     10    100
2:  2     20    200
3:  3     30    300
4:  4     40    400

以上是使用data.table包中的by和on参数来连接并创建data.table的汇总列的方法。对于更多关于data.table的详细信息和用法，可以参考腾讯云的产品介绍链接地址：data.table - 高效的数据处理工具。

相关·内容

「R」数据操作（三）：高效的data.table

对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...接下来，我们学习如何通过by以简便的方式实现数据的分组汇总。...下面的例子中，首先使用通用键id将product_info和product_tests连接起来，然后筛选已发布的产品，再按type和class进行分组，最后计算每组的quality和durability...为演示，我们先创建新的data.table，命名为market_data，其中date列是连续的。...("volume") #> year average #> 1: 2015 4000 #> 2: 2016 4003 我们可以利用此包专门的语法创造一个列数动态变化的组合，并且组合中的列是由动态变化的名称决定的

6.2K2 0

《高效R语言编程》6--高效数据木匠

用法是：gather(data,key,value，-religion),分别是数据框，要转换成分类的列名,单元值的列名和清除收集的变量使用seperate()分割联合变量分割是指将一个实际由两个变量组成的变量分割成两个独立列...滤除行 filter() ##　键操作数据聚合基于组合变量生成数据汇总，以前称为split-apply-combine。summarize是一个多面手，用于返回自定义范围的汇总统计值。...RODBC是一个资深包，提供R与SQL server的接口。DBI包提供了通用接口与驱动程序的类集，如RSQLITE，是访问数据库的统一框架，允许其他驱动程序以模块包添加。...这里建议不要把数据库密码和API密钥等放在命令中，而要放大.Renviron文件中。dbConnect()函数连接数据库，dbSendQuery()查询，dbFetch()加载到R中。...mongolite包可以连接MongoDB，MonetDB也可以。数据库与dplyr 必须使用src_*()函数创建一个数据源。

1.9K2 0

R语言基因组数据分析可能会用到的data.table函数整理

",因子和列名只有在他们需要的时候才会被加上双引号，例如该部分包括分隔符，或者以"\n"结尾的一行，或者双引号它自己，如果FALSE，那么区域不会加上双引号，如果TRUE，就像写入CSV文件一样，除了数字...，其它都加上双引号； sep 列之间的分隔符； sep2 对于是list的一列，写出去时list成员间以sep2分隔，它们是处于一列之内，然后内部再用字符分开； eol 行分隔符...代表无变量； fun.aggregate 是否在铸造之前汇总，应提供函数list（比如mean，sum或者c(sum,mean))，默认length； sep 铸造的时候连接字符变量的连接符...显示没有联合成功的行列 value.var 填充值的列，默认会猜测现在我需要取数据DT的v1,v2两列相同的情况作为汇总的一类，对它们的v4值取平均，转换如下，...，y需要设置key，x并不需要设置key； by.x,by.y 用来计算重叠的列名或者列号的矢量，by.x和by.y的最后两列都应该对应各自的(x,y的）start和end区间列，并且start

3.4K1 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。...2.aggregate函数不能对分组后的数据进行多种汇总计算，因此要用两句代码分别实现sum和max算法，最后再用cbind拼合。显然，上述代码在性能和易用性上存在不足。...：对每个小片断独立进行操作； combine：把片断重新组合。...可以看到，计算结果中的第一列实际上是“SELLERID.CLIENT”，我们需要把它拆分成两列并调换顺序才行。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的

20.7K3 2

R语言学习笔记之——数据处理神器data.table

合理选择一套自己的数据处理工具组合算是挺艰难的选择，因为这个涉及到使用习惯和迁移成本的问题，比如你先熟知了R语言的基础绘图系统，在没有强大的驱动力的情况下，你可能不太愿意画大把时间去研究ggplot2，...然后根据自己掌握的现状选择最熟练的一套，随着时间的推移慢慢发现现有工具组合的不足，开始尝试往更加高效、简介的工具迁移，这样以需求为推动力的技能升级和迁移更为彻底和明确。...data.table 1、I/O性能： data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指，这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何，...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...SD, mean)则将各个子块的对应列应用于均值运算，并返回最终的列表。

3.6K8 0

开发ETL为什么很多人用R不用Python

做过建模的小伙伴都知道，70%甚至80%的工作都是在做数据清洗；又如，探索性数据分析中会涉及到各种转置、分类汇总、长宽表转换、连接等。因此，ETL效率在整个项目中起着举足轻重的作用。...而日常数据生产中，有时会牵扯到模型计算，一般以R、python为主，且1~100G左右的数据是常态。基于此，于是想对比下R、Python中ETL的效率。...可以看到，无论是5G还是50G的数据，data.table的性能都在python之上,堪比spark、clickhouse。...测试内容：对于id3, id4两列分类汇总求v3的中位数与标准差 data.table用时10.5秒 data[, ....(id4, id5)] modin用时174秒，由于modin暂不支持多列的groupby，实际上还是用的pandas的groupby x.groupby([‘id4’,‘id5’]).agg({‘v3

1.9K3 0

【技巧】如何快速按照日期分组

问题的提出在处理数据的时候，我们常常需要按照日期对数据进行分类汇总，例如每周、每月、每年汇总等。常见的做法是建立一个用于分类的变量，然后再按照这个变量进行汇总。...然而这种做法特别麻烦，因为我们常常要尝试多种不同的分类长度，很难事先就一次性创建好用于分类的变量。...本期大猫将教大家使用 data.table包的 keyby语句完成上述任务。...使用 data.table的好处是：不需要事先创建分类变量，啥时想分类了，直接分就可以（group on the fly）速度特别、特别快！代码非常、非常简洁！（也就十几个字符！）...按照“是否为周三”进行分类如果我们想把样本分成两组，一组是周三（True），一组是非周三（False），则只要使用 wday(date)==3来生成一列值为 True或者 False的向量就行。

2.5K3 0

新书《R语言编程—基于tidyverse》信息汇总

、“优雅的” 方式，以管道式、泛函式编程技术实现。...这些基本语法是您写 R 代码的基本元素，学透它们非常重要，只有学透它们才能将其任意组合、恰当使用，以写出各种各样的解决具体问题的 R 代码。...、R连接数据库、中文编码问题及解决办法），数据连接（数据按行/列拼接、SQL数据库连接），数据重塑（“脏”数据变“整洁”数据，长宽表转换、拆分与合并列），数据操作（选择列、筛选行、对行排序、修改列、...分组汇总）、其它数据操作（按行汇总、窗口函数、滑窗迭代、整洁计算），以及data.table基本使用（常用数据操作的dplyr语法与data.table语法对照）。...(4) 回归分析，从线性回归原理、回归诊断，借助具体实例讲解多元线性回归的整个过程，并介绍广泛应用于机器学习的梯度下降法，以及广义线性模型原理。

2.4K2 1

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?...设置key的方式有很多种： 1、创建数据时直接设置key dt <- data.table(a=c('A','B','C','A','A','B'),b=rnorm(6),key="a") 2、setkey...,foo=c(4,2)) #以DT为基准 setkey(DT,x) DT[X] #以X数据集为基准 setkey(X,V1) X[DT] 现在有DT、X两个数据集，先设置DT数据集的key，然后DT...于是只能借助get+names的组合。 for (i in 1:5){ data[,....dplyr和data.table，你选哪个？

8.3K4 3

MR应知应会：MungeSumstats包

这只能作为最后的手段。 force_new_z 当“Z”列已经存在时，默认使用它。要从 P 设置为 TRUE 覆盖并计算新的 Z 分数列。 compute_n 是否插补 N。...Sum 和整数值在输出中创建 N 列，而 Giant、metal 或 ldsc 创建 Neff 或有效样本大小。如果传递多个，则会指示用于推导它的公式。...对于翻转值，这表示等位基因是否根据 MungeSumstats 从输入列标题中选择的 A1、A2 进行切换，因此可能与创建者的意图不符。请注意，这些列将出现在返回的格式化摘要统计信息中。...log_folder日志文件和要存储的 MungeSumstats 消息日志的目录路径。默认是临时目录。如果存在同名的格式化文件，则将跳过格式化并导入该文件（默认）。设置为覆盖此设置。...但是，如果 youf 文件中的列标题丢失，我们提供的映射不正确，您可以提供自己的映射文件。必须是 2 列数据框，列名称为“未更正”和“已更正”。

2K1 1

「Workshop」第二期：程序控制与数据操作流

涉及编程的数据和代码都会放到 https://github.com/XSLiuLab/Workshop 推荐图书《R for Data Science》[1] 《R 语言编程指南》《R 实战》其他推荐见...select 排序 arrange 行列增加/更新基本的数学和比较逻辑运算符 + - * / > < == 偏移 dplyr:: lag lead 聚合 dplyr:: cumall cumany...拓展表格 expand complete 分割和连接 separate separate_rows unite 数据导出 write_* data.table 与 base 数据导入 fread 数据导出...fwrite data.table 语法 dt[i, j, by] 数据过滤与合并等操作与 R 基础语法一致，也可以使用 tidyverse 处理整数索引逻辑索引命名索引进一步的学习参考小抄、...文档和《R 语言编程指南》后几期主题本期未讲述的内容？？？

1.6K3 0

数据流编程教程：R语言与DataFrame

(): 按列变量选择 filter(): 按行名称分片 slice(): 按行索引分片 mutate(): 在原数据集最后一列追加一些数据集 summarise(): 每组聚合为一个小数量的汇总统计，通常结合...anti_join(x, y): 所有 x 在 y 中不匹配的部分（3）集合操作 intersect(x, y): x 和 y 的交集（按行） union(x, y): x 和 y 的并集（按行）...数据可视化 ggplot2/ggvis 1. ggplot2 ggplot2 是一个增强的数据可视化R包，帮助我们轻松创建令人惊叹的多层图形。...值得一提的是data.table引入了全新的索引形式，大大简化了data frame的分片形式，提供接近于原生矩阵的操作方式并直接利用C语言构造底层，保证操作的速度。 2....对比操作对比data.table 和 dplyr 的操作： 3. apply函数族 4. join 操作 5. 拼接操作更多操作详情可查看data.table速查表。八.

3.8K12 0

懒癌必备-dplyr和data.table让你的数据分析事半功倍

接下来，我就为大家分享几个我在工作当中最常用来做数据分析用到的包，dplyr和data.table，我保证你get到这两个包后，就再也不想用R里面自带的基础包函数进行数据分析了！！...mutate( ) 为数据增加新列 mutate(df,vnew1=v1-v2,vnew2=vnew1+v3) 与基础包里的transform()函数接近，但mutate可以使用你刚刚创建的column...找到合适的packages并学习使用它，绝对会让我们数据分析工作事半功倍！我们有没有发现dylyr包中函数使用的一些规律？有的！...官网上面有关于data.table包对于dplyr的提升和改进： ?...data.table把我们刚刚用group_by和summarise组合才能实现的功能，直接在一句代码里面就实现了，而且代码的可读性和可扩展运用性非常强！

2.4K7 0

「R」数据操作（八）：dplyr 的 do, do, do

与data.table类似，dplyr也提供了do()函数来对每组数据进行任意操作。例如将diamonds按cut分组，每组都按log(price) ~ carat拟合一个线性模型。...和data.table不同的是，我们需要为操作指定一个名称，以便将结果存储在列中。而且do()表达式不能直接在分组数据的语义下计算，我们需要使用.来表示数据。...> 2 Good #> 3 Very Good #> 4 Premium #> 5 Ideal 注意结果创建了一个新列...，该列不是典型的原子向量，每个元素都是模型的结果，包含线性回归对象的列表。...假如我们需要分析toy_tests数据，要对每种产品的质量和耐久性进行汇总。如果只需要样本数最多的3个测试记录，并且每个产品的质量和耐久性是经样本数加权的平均数，下面是做法。

1.6K3 1

使用字典汇总数据（续）

将A列中的数据链接到B列中的数据，以创建唯一标识符，希望基于2列创建汇总，而不只是前一个示例中所示的一个。假设供应商是Bob，Bob订购了Apple和Orange。...假设需要根据供应商Bob和水果Apple或Orange汇总数据。如果Bob买了一种不同的水果，那么我们希望代码更加灵活，这样它就能捕获并记录数据。...从而在列A和列B之间创建唯一标识符。...如果想扩展过程以覆盖3列或更多列的连接，那么对于3列，代码将如下所示： txt = Join(Application.Transpose(Application.Transpose(r.Resize(,...3))), ",") 这里，前3列被连接以创建唯一标识符。

5172 0

「Workshop」第五期：使用data.table操作数据

图片引自：https://rstudio.com/ 创建data.table setDT() setDT()适用于对'list', 'data.table', 'data.frame'这三种类型，它比as.data.table...data.table 按相同的列内容进行data.table组合 ?...(b = y, c > z)] a b c x 1: 3 b 4 3 2: 1 c 5 2 3: NA a 8 1 bind组合两个data.table ?...x的区域内的情况（相等也属于within） type = "any" 匹配y和x有重叠的区域 type = "start" 匹配start一样的情况 type = "end"匹配end一样的情况 ......对应y中列的名称数据的拆分和合并 melt() dcast() > reshape_dt <- data.table(kinds = c(rep("peach", 2), rep("grape",

3.3K5 0

R练习50题 - 第一期

虽然具有明显的金融背景，但是它和其他学科所遇到的数据集是相通的：在我们的数据集中，每个股票代码symbol和日期date的组合都决定了唯一的一个观测，相当于数据集的key，这种由“横截面”与“时间序列”...和date组合决定了一个唯一的观测。...unique：找出symbol中不重复的值。在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。...这是因为data.table的第一个语句用来对列进行选择，由于我们这里需要对所有列进行统计，所以不需要进行任何操作。 keyby用来进行分组，是整个代码的核心。先来看keyby = ....(date, updown)这个结构，他的意思是，把整个数据集按照date和updown两个变量进行分组，并依次排序。

2.5K4 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

可见它是属于data.table和data.frame类，并且取列，维数，都可以采用data.frame的方法。...，比as.data.table快，因为以传地址的方式直接修改原对象，没有拷贝 copy(x) 深度拷贝一个data.table，x即data.table对象。...sep2,对于是list的一列，写出去时list成员间以sep2分隔，它们是处于一列之内，然后内部再用字符分开； eol，行分隔符，默认Windows是"\r\n",其它的是"\n"； na,na...，仅仅对POSIXct有影响，as.character将digits.secs转化字符并通过R内部UTC转回本地时间。..., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的

5.8K2 0

5个例子比较Python Pandas 和R data.table

在这篇文章中，我们将比较Pandas 和data.table，这两个库是Python和R最长用的数据分析包。我们不会说那个一个更好，我们这里的重点是演示这两个库如何为数据处理提供高效和灵活的方法。...我将使用谷歌Colab(Pandas )和RStudio(data.table)作为开环境。让我们首先导入库并读取数据集。...data.table) melb <- fread("datasets/melb_data.csv") 示例1 第一个示例是关于基于数据集中的现有列创建新列。...data.table中使用减号获得降序结果。示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。...对于data.table，我们使用setnames函数。它使用三个参数，分别是表名，要更改的列名和新列名。总结我们比较了pandas和data.table在数据分析操作过程中常见的5个示例。

3.1K3 0

R语言大数据分析纽约市的311万条投诉统计可视化与时间序列分析

install.packages("devtools")library("devtools")install_github("ropensci/plotly") library(plotly) 需要创建一个帐户以连接到...过滤列中的多个值 ComplaintType Descriptor Agency Noise - Street/Sidewalk Loud Music/Party NYPD Noise - Commercial...在SQL数据库中创建一个新列，然后使用格式化的date语句重新插入数据创建一个新表并将格式化日期插入原始列名。...Sidewalk 2015-11-04 02:11:02 BROOKLYN 02 Noise - Street/Sidewalk 2015-11-04 02:10:45 NEW YORK 02 汇总时间序列...首先，创建一个时间戳记四舍五入到前15分钟间隔的新列 # Using lubridate::new_period()# dt[, interval := CreatedDate - new_period

1.2K0 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云