开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何组合和汇总来自不同大小的不同表的R data.table行值？

在R中，可以使用data.table库来组合和汇总来自不同大小的不同表的行值。data.table是一个高效的数据处理工具，可以处理大型数据集，并提供了快速的聚合、筛选和合并操作。

要组合和汇总来自不同大小的不同表的行值，可以使用data.table的merge()函数或rbindlist()函数。

使用merge()函数：
- merge()函数可以根据指定的键将两个或多个data.table对象合并为一个新的data.table对象。
- 首先，使用data.table()函数将每个表转换为data.table对象。
- 然后，使用merge()函数将这些data.table对象按照指定的键进行合并。
- 最后，可以使用data.table的聚合函数（如sum()、mean()等）对合并后的data.table进行汇总操作。
- 示例代码：library(data.table)

 # 创建两个示例表

 table1 <- data.table(key = c("A", "B", "C"), value1 = c(1, 2, 3))

 table2 <- data.table(key = c("B", "C", "D"), value2 = c(4, 5, 6))

 # 合并表

 merged_table <- merge(table1, table2, by = "key", all = TRUE)

 # 汇总操作

 summary_table <- merged_table[, .(total_value = sum(value1, value2)), by = key]

```

以上示例中，首先创建了两个示例表table1和table2，然后使用merge()函数将它们按照"key"列进行合并，并设置all参数为TRUE以包含所有行。最后，使用聚合函数sum()对合并后的表进行汇总操作，计算每个键的总值。

使用rbindlist()函数：
- rbindlist()函数可以将多个data.table对象按行堆叠成一个新的data.table对象。
- 首先，使用data.table()函数将每个表转换为data.table对象。
- 然后，使用rbindlist()函数将这些data.table对象按顺序堆叠起来。
- 最后，可以使用data.table的聚合函数对堆叠后的data.table进行汇总操作。
- 示例代码：library(data.table)

 # 创建两个示例表

 table1 <- data.table(key = c("A", "B", "C"), value1 = c(1, 2, 3))

 table2 <- data.table(key = c("B", "C", "D"), value2 = c(4, 5, 6))

 # 堆叠表

 stacked_table <- rbindlist(list(table1, table2))

 # 汇总操作

 summary_table <- stacked_table[, .(total_value = sum(value1, value2)), by = key]

```

以上示例中，首先创建了两个示例表table1和table2，然后使用rbindlist()函数将它们按顺序堆叠起来。最后，使用聚合函数sum()对堆叠后的表进行汇总操作，计算每个键的总值。

在以上示例中，没有提及具体的腾讯云产品和产品介绍链接地址，因为要求答案中不能提及亚马逊AWS、Azure、阿里云、华为云、天翼云、GoDaddy、Namecheap、Google等流行的一些云计算品牌商。但是，可以根据实际需求选择适合的腾讯云产品来存储和处理数据，例如腾讯云的云数据库TencentDB、对象存储COS、云函数SCF等。具体的产品介绍和链接地址可以在腾讯云官方网站上查找。

相关搜索:R data.table:根据行值的大小子集data.table/dataframe R:如何对不同函数的多个变量进行汇总？R语言组合不同的表使用mysql组合来自不同select语句的单个值使用R中的不同概率为行随机分配不同的值合并来自不同工作表的特定行值在<picture>标记中组合不同的类型和大小在sql中组合来自不同表的数据在选择R数据框行时组合来自不同列的grep和factor 如何匹配和组合来自R中两个不同数据帧的日期和变量

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R 语言中的汇总统计：如何批量计算不同因素不同水平的平均值

有很多初学者遇到的问题，写出来，更好的自我总结，正所谓：“学然后知不足，教然后知困”。以输出（写博客）倒逼输入（学习），被动学习, kill time，是一个不错的方法。.../questions/12478943/how-to-group-data-table-by-multiple-columns 实际工作中，我们需要对数据进行平均值计算，这里我比较了aggregate和data.table...的方法，测试主要包括： 1，对数据yield计算平均值 2，计算N不同水平的平均值 3，计算N和P不同水平的平均值 1....使用data.table方法代码： data(npk) head(npk) library(data.table) setDT(npk) # 单个变量 npk[,mean(yield),by=N]...(N,P)] N P V1 1: 0 1 52.41667 2: 1 1 56.15000 3: 0 0 51.71667 4: 1 0 59.21667 要点： data.table

3K2 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。...二、数据分组以及分组汇总 1、cut函数 b<- cut(a, 5,labels=F) #将数据平均分成5组，rank=5代表大，rank=1代表小 2、aggregate函数——分组汇总 ?...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。...（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?

20.6K3 2

《高效R语言编程》6--高效数据木匠

tidyr方便了收集与分割两个常见的操作 gather()收集是将列名换成新变量，将宽表变成长表，spread()是实现相反过程的函数。...用法是：gather(data,key,value，-religion),分别是数据框，要转换成分类的列名,单元值的列名和清除收集的变量使用seperate()分割联合变量分割是指将一个实际由两个变量组成的变量分割成两个独立列...使用dplyr高效处理数据这个包名的意思是数据框钳，相比基础R的优点是运行更快、与整洁数据和数据库配合好。函数名的部分灵感来自SQL。 ?...与基本R中类似函数不同，变量无需使用 $ 操作符就可直接使用，设计与magrittr包的%>%管道操作符一起使用，以允许每个数据阶段写成新的一行。其是一个大型包，本身可以看成一门语言。...滤除行 filter() ##　键操作数据聚合基于组合变量生成数据汇总，以前称为split-apply-combine。summarize是一个多面手，用于返回自定义范围的汇总统计值。

1.9K2 0

「R」数据操作（三）：高效的data.table

接「R」数据操作（一）和「R」数据操作（二）使用data.table包操作数据 data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]...反应每种type和class组合中released取yes的数量： product_info[released == "yes", table(type, class)] #> class...对数据进行分组汇总 by是data.table中另一个重要参数（即方括号内的第3个参数），它可以将数据按照by值进行分组，并对分组计算第2个参数。...接下来，我们学习如何通过by以简便的方式实现数据的分组汇总。...中，by所对应的组合中的值是唯一的，虽然实现了目标，但结果中没有设置键： key(type_class_test0) #> NULL 这种情况下，我们可以使用keyby来确保结果的data.table自动将

5.9K2 0

R语言基因组数据分析可能会用到的data.table函数整理

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...，R层次的C代码 data.table TRUE返回data.table，FALSE返回data.frame 可见1.8GB的数据读入94秒，读入文件速度非常快 fwrite 对数据框数据进行处理后...，默认Windows是"\r\n",其它的是"\n"； na,na 值的表示，默认""； dec 小数点的表示，默认"...显示没有联合成功的行列 value.var 填充值的列，默认会猜测现在我需要取数据DT的v1,v2两列相同的情况作为汇总的一类，对它们的v4值取平均，转换如下，...by ]语法做但是如果我要将上述DT中的v3作为一个影响因素，作为tag，先按v1、v2汇总，再将对应的v4值分为v3=1和v3=2两类，查看v1、v2取值相同v3不同对应v4的情况，这个时候用dcast

3.3K1 0

R语言学习笔记之——数据处理神器data.table

R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在着性能和效率的绝大差异...合理选择一套自己的数据处理工具组合算是挺艰难的选择，因为这个涉及到使用习惯和迁移成本的问题，比如你先熟知了R语言的基础绘图系统，在没有强大的驱动力的情况下，你可能不太愿意画大把时间去研究ggplot2，...然后根据自己掌握的现状选择最熟练的一套，随着时间的推移慢慢发现现有工具组合的不足，开始尝试往更加高效、简介的工具迁移，这样以需求为推动力的技能升级和迁移更为彻底和明确。...data.table 1、I/O性能： data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指，这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何，...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,.

3.6K8 0

新书《R语言编程—基于tidyverse》信息汇总

这些基本语法是您写 R 代码的基本元素，学透它们非常重要，只有学透它们才能将其任意组合、恰当使用，以写出各种各样的解决具体问题的 R 代码。...、R连接数据库、中文编码问题及解决办法），数据连接（数据按行/列拼接、SQL数据库连接），数据重塑（“脏”数据变“整洁”数据，长宽表转换、拆分与合并列），数据操作（选择列、筛选行、对行排序、修改列、...分组汇总）、其它数据操作（按行汇总、窗口函数、滑窗迭代、整洁计算），以及data.table基本使用（常用数据操作的dplyr语法与data.table语法对照）。...本章将从四个方面展开： (1) 描述性统计，介绍适合描述不同数据的统计量、统计图、列联表； (2) 参数估计，主要介绍点估计与区间估计，包括Bootstrap法估计置信区间，以及常用的参数估计方法：最小二乘估计...附录部分是正文内容的补充和扩展，将分别介绍R6类面向对象编程、实现Excel中的VLOOKUP与透视表、R网络爬虫、R高性能计算、R最新机器学习框架：mlr3verse, tidymodels.

2.3K2 1

R练习50题 - 第一期

虽然具有明显的金融背景，但是它和其他学科所遇到的数据集是相通的：在我们的数据集中，每个股票代码symbol和日期date的组合都决定了唯一的一个观测，相当于数据集的key，这种由“横截面”与“时间序列”...和date组合决定了一个唯一的观测。...unique：找出symbol中不重复的值。在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。...它是data.table内置函数之一，和unique几乎执行相同的操作，唯一不同的是，unique返回的是不重复的item（是一个向量），而uniqueN返回的是不重复的数量（是一个数字）。...如果你愿意，data.table允许你把所有的代码都写在同一行，就像这样：下期预告在下一期，我们会继续带来剩余题目的解答~ 大猫的R语言课堂我是大猫，一个高中读文科但却在代码、数学的路上狂奔不止的

2.4K4 0

CSV数据读取，性能最高多出R、Python 22倍

其选用来3个不同的CSV解析器： R的fread、Pandas的read_csv、Julia的CSV.jl 这三者分别在R，Python和Julia中被认为是同类CSV解析器中“最佳” 。...之后使用他们分别读取了8个不同真实数据集。那么，测试的结果又是如何呢？让我们来一起看下。同构数据集的性能首先从同构数据集开始进行性能测试。...字符串数据集 II 该数据集的大小与字符串数据集 I 中相同。区别在于，其每一列是存在缺失值的。 ? Pandas需要300毫秒。...单线程中，CSV.jl比R快1.2倍，而多线程相比，CSV.jl则快约5倍。苹果股价数据集该数据集包含50000k行和5列，大小为2.5GB。这些是AAPL股票的开盘价、最高价、最低价和收盘价。...但是，使用更多线程，Julia的速度与R一样快或稍快。宽数据集这是一个相当宽的数据集，具有1000行和20k列。数据集包含的数据值类型有：String、Int。 ?

2K6 3

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?...R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时，data.table与data.frame数据呈现方面，还有有所不同的。...DT数据集按照x分组，然后计算v变量的和、最小值、最大值。（2）dplyr函数利用%>%（链式操作）来改进：链式操作是啥意思呢？...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？...于是只能借助get+names的组合。 for (i in 1:5){ data[,.

7.7K4 3

Matt Dowle 演讲节选（一）

关于本视频本视频来自 YouTube，是 Matt Dowle 在 useR! 2014年洛杉矶会议上的演讲。...在这段21分33秒的演讲中，Matt 回顾了自己在伦敦大投行的工作经历（雷曼兄弟以及所罗门兄弟）、自己与 R 的偶遇以及开发 data.table 的动机。...演讲全程笑声不断，充分体现了腐国人一本正经说笑话的能力╮(╯▽╰)╭ 采访节选：初见 S-PLUS 1996年我本科毕业，拿到了数学和计算机的学位，开始在伦敦的雷曼兄弟工作（大投行啊！）...，但是可以是不同的数据类型！...后来我下载了 R，在几乎没有任何改动的情况下把 S-PLUS 的代码粘贴了过去。代码的主要任务是生成许多随机资产组合，因此它包含一个很长的 for 循环。

6372 0

R语言︱情感分析—基于监督算法R语言实现（二）

随机森林模型，分类和回归预测的操作不同之处在于判断因变量的类型，如果因变量是因子则执行分类任务，如果因变量是连续性变量，则执行回归预测任务。...笔者自问自答：图4是训练集服从随机森林模型dcast之后的图，而图6是测试集dcast之后的表，为啥他们的单词顺序都是一样的呢？如何才能严格符合训练集的数据结构呢？...答：dcast重排的时候，是按照term的名称大小写的顺序来写的，所以肯定和训练集的结构是一致的！为什么图5中，一些词语的Id为0，而dcast之后，不存在0id的个案呢？...图6 （2）测试集的随机森林建模测试集建立随机森林模型，还是需要去除缺失值，然后重命名列名，因为模型不接受id这一行作为输入变量，输入的数据集一定要干净。 test <- test[!...、容易理解；而稍微复杂的情况下，更多地考虑的是一些高大上的指标，信息熵、复杂度和基尼值等等。

1.7K2 0

Matt Dowle 演讲节选（二）

千万不要小看了DF[2:3, sum(B)])这行代码，因为这行代码体现了 R 的与众不同之处—— lazy evaluation....在这行代码中，B 的值来自于 DF 这个表，而不是 global environment。...[, v1 := i] # 1 s 上面两行代码做的都是同一件事：把变量v1从第1行到第1000行的值分别设置为1至1000。...在这个2012年（注意dplyr的最早版本在2016年！）的帖子中，一个用户需要处理以下数据集（这里只显示前6行） ? 他想首先按照gene_id分组，然后分别计算特定变量的极值和均值。...这个用户一开始使用lapply和do.call函数，不仅计算时间很长（30 min！），而且代码特别难看： ? 而使用data.table,则简直是一阵春风： ?

1.1K4 0

MR应知应会：MungeSumstats包

该软件包还使用户能够灵活地将重新格式化的文件导出为制表符分隔的 VCF 或 R 本机对象，例如 data.table、GRanges 或 VRanges 对象。...Sum 和整数值在输出中创建 N 列，而 Giant、metal 或 ldsc 创建 Neff 或有效样本大小。如果传递多个，则会指示用于推导它的公式。...默认值为 FALSE。 es_is_beta 是否将 ES 映射到 BETA。我们将 BETA 视为任何类似 BETA 的值（包括效应大小）。...N_dropNA控制是否删除缺少 N 值的 SNP（默认值为 TRUE）。N_dropNA 删除缺少 N 的行。默认值为 TRUE。 rmv_chr向量或字符应删除 SNP 的染色体。...有时，汇总统计信息可以在一行上有多个 RSID（即与一个 SNP 相关），例如“rs5772025_rs397784053”。

1.4K1 0

开发ETL为什么很多人用R不用Python

对比python中的datatable、pandas、dask、cuDF、modin，R中data.table以及spark、clickhouse 3....做过建模的小伙伴都知道，70%甚至80%的工作都是在做数据清洗；又如，探索性数据分析中会涉及到各种转置、分类汇总、长宽表转换、连接等。因此，ETL效率在整个项目中起着举足轻重的作用。...而日常数据生产中，有时会牵扯到模型计算，一般以R、python为主，且1~100G左右的数据是常态。基于此，于是想对比下R、Python中ETL的效率。...测试内容：对于id3, id4两列分类汇总求v3的中位数与标准差 data.table用时10.5秒 data[, ....测试内容：id1, id4不动，对id5横向展开，值为对v3求均值 data.table用时3.3秒 dcast.data.table(ans, id1 + id4 ~ id5, value.var

1.8K3 0

数据流编程教程：R语言与DataFrame

tidyr主要提供了一个类似Excel中数据透视表(pivot table)的功能，提供gather和spread函数将数据在长格式和宽格式之间相互转化，应用在比如稀疏矩阵和稠密矩阵之间的转化。...(): 按列变量选择 filter(): 按行名称分片 slice(): 按行索引分片 mutate(): 在原数据集最后一列追加一些数据集 summarise(): 每组聚合为一个小数量的汇总统计，通常结合...gruop_by()使用 arrange(): 按行排序（2）关联表查询 inner_join(x, y): 匹配 x + y left_join(x, y): 所有 x + 匹配 y semi_join...(x, y): x 和 y 的并集（按行） setdiff(x, y): x 和 y 的补集（在x中不在y中）更多详细操作可以参考由SupStats翻译的数据再加工速查表，比Python的老鼠书直观很多...3.R Tutorial: Data Frame 4.Python Pandas 官方文档 5.知乎：R语言读大数据？ 6.知乎的高分问答：如何使用 ggplot2？

3.8K12 0

R语言学习笔记-Day4

jimmy <- function(a,b,m = 2){(a+b)^m+}function：创造其他函数jimmy：函数名称；m存在默认值=2，可修改函数的原理是代数，把参数带入大括号里的代码2 R包...都需要加载6 R包安装和使用的逻辑6.1 安装包-加载包-使用包里的函数library(stringr)library()是检查是否安装成功的标准R包安装成功的唯一标准：library()没有errorstr_detect...，则需要指定一些参数#read.系列函数参数通用，不同函数间参数默认值不同read.table()默认header=F，若TXT文件存在列名，应改为：read.table("文件名",header =...TRUE)read.csv()设置行名和特殊字符：read.csv("文件名",row.names = 1,check.names = F)规则：数据框不允许重复的行名报错解决方法：1.先不加row.names...参数进行读取；2.处理第一列的重复值（去重复，两行求平均值，合并为一行）；3.将第一行设为行名3 数据框导出CSV格式：write.csv()write.csv(ex2,file = "example.csv

1321 0

能不能让R按行处理数据？

这些问题都是在平日的工作中有很高可能性出现并且看似容易实则让人抓狂的问题，在Stackoverflow上他们有着很高的人气。事实上，这些问题也就是你在“看懂一本R的教材”和“成为R大神”之间的距离。...data.table是目前R中人气最高的数据处理包。 2....首先，假设我有一个这样的数据集（暂且命名为t1）： ? 现在我想做的是对于每一行，找出非NA的值，填充到“mean.scale”这个新的变量；如果有多个非NA，那么就计算其平均值。...解题步骤如何rearrange呢？eddi大神的意思是，原来inti_total_asset和issuing_scale是两个变量，现在要把他们stack起来，“堆成”一列，也就是这样： ?...对，这个步骤和cast和melt函数的作用类似，只不过这里直接用了data.table自己的语句。

1.3K2 0

【孟德尔随机化】文章复现：IVW meta分析？

/generic-metal/metal metal metal_config.txt 但如果不注意的话，就会发现你的结果里只有zscore和p值，苦思冥想（怪不好意思的……）良久，再回头看这个软件的示例文件...逆方差加权平均法（IVW）通过计算效应大小的加权平均值，以单项研究的逆方差作为权重，汇总多项独立研究的效应大小[1]。...如何在R中实现呢? The function of choice for pre-calculated effect sizes is metagen【来自meta package】....关于ED的数据分别来自芬兰数据库和catalogue gwas数据库，都是公开获取的。...library(meta) library(data.table) library(dplyr) library(tidyr) # 创建一个包含效应量和标准误差的数据框 ED_cat <- fread

6751 0

手把手教你用R语言读取CSV文件

注意我们如何显式地使用参数名file、head和sep。函数的参数能够按位置顺序赋值，而不用显式指定参数名，但指定参数名是最佳实践。第二个参数header，表示数据的第一行，即列名。...▲表6-1 读取大文本文件的函数及其默认参数大文件使用read.table函数读取到内存比较慢，幸运的是有解决方案。...tibble会适应屏幕大小打印相应条数的行列数据。 > tomato2 ?...02 fread函数另一个读取大量数据的函数是data.table包的fread函数。第一个参数是读取的文件路径或者URL。header参数表示文件的第一行是列名，sep指定分隔符。...在数据管理、多层次模型、机器学习、广义线性模型、可视化、数据管理和统计计算等多个领域拥有丰富经验。本文摘编自《R语言：实用数据分析和可视化技术》（原书第2版），经出版方授权发布。

21.4K2 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭