社区首页 >问答首页 >在R中按组高效地分组数据

问在R中按组高效地分组数据
EN

Stack Overflow用户

提问于 2019-01-23 22:46:37

回答 1查看 293关注 0票数 3

我有一个相对较大(约250万条记录)的数据帧，其结构大致如下：

df <- tibble(year = rep(2000:2009, times = 10), value = sample(0:1000, 100)) %>% 
  arrange(year)

我想根据每年的分位数将每个值分配给一个存储桶(例如，观察值1在2000年处于值的底部四分位数)。对于我的简单示例，这可以很好地工作：

df %>% 
  group_by(year) %>% 
  mutate(bucket = as.numeric(cut(value, 
                             breaks = quantile(value, probs = c(0, .25, .5, .75, 1)), 
                             include.lowest = T)))

df

# A tibble: 100 x 3
# Groups:   year [10]
    year value bucket
   <int> <int>  <dbl>
 1  2000   281      1
 2  2000   336      2
 3  2000   873      4
 4  2000    41      1
 5  2000   335      1
 6  2000   939      4
 7  2000   746      3
 8  2000   762      4
 9  2000   345      2
10  2000   628      3

但在我的完整数据集上，这(不出所料)需要永远。为了加快速度，我在单独的数据帧中计算了每一年的分位数：

break_calc <- function(yr) {
  library(magrittr)
  df %>% 
    filter(year == yr) %$%
    quantile(value, probs = c(0, .25, .5, .75, 1))
}

df_quants <- tibble(year = 2000:2009) %>% 
  mutate(breaks = map(year, ~break_calc(.x)))

但即便如此，我仍在努力想出一个不会永远耗费时间的解决方案。这在我的完整数据上是非常慢的：

df %>% 
  mutate(bucket = map2_dbl(value, year,
                       ~cut(.x, breaks = unlist(df_quants$breaks[df_quants$year == .y]), include.lowest = T)))

这可能会快一点，但不是很好：

df %>% 
  left_join(df_quants, by = "year") %>% 
  mutate(bucket = map2_dbl(value, breaks, ~cut(.x, breaks = unlist(.y), include.lowest = T)))

对如何优化这个有什么想法吗？强烈倾向于将其保留在dplyr/tidyverse领域，尽管我对应用/data.table解决方案持开放态度，如果它们明显更快的话。

EN

回答 1

Stack Overflow用户

发布于 2019-01-23 22:54:52

在dplyr中使用data.table和ntile怎么样？

library(dplyr)
library(data.table)
df <- as.data.table(df)
df[, bucket:=ntile(value,4), by=year]

你也可以在你的代码中使用ntile，但是我发现data.table更快更干净

使用分位数：

library(dplyr) 
library(data.table)
df <- as.data.table(df)
df[, bucket:= as.integer(cut(value, 
                            breaks = quantile(value, probs = c(0, .25, .5, .75, 1)), 
                            include.lowest = T)), by=year]

票数 2

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54336854

复制

相关文章

虚拟地址空间的内存布局

x86 程序员管理内存

实际的物理内存程序员是不能直接管理的，在最早期的x86体系结构中。由于实模式，对内存不进行保护，致使病毒蠕虫横飞。出现保护模式以后，提供虚拟地址空间对实际物理内存抽象虚拟，形成一一映射的关系。

lexingsen

2022/02/24

9330

【Linux 内核内存管理】虚拟地址空间布局架构 ① ( 虚拟地址空间布局架构 | 用户虚拟地址空间划分 )

操作系统架构内存管理内核源码

" ARM64 架构 " 中 , Linux 系统的 " 内核虚拟地址 “ 与 ” 用户虚拟地址 " 是等同的 ;

韩曙亮

2023/03/30

7.3K0

【Linux 内核内存管理】虚拟地址空间布局架构 ① ( 虚拟地址空间布局架构 | 用户虚拟地址空间划分 )

【Linux 内核内存管理】虚拟地址空间布局架构 ⑦ ( Linux 内核地址空间布局简介 )

linux 架构内存管理内核源码

" Linux 内核地址空间布局 " 对应代码在 Linux 内核源码的 linux-4.12\arch\arm64\include\asm\memory.h#66 位置 ;

韩曙亮

2023/03/30

1.9K0

【Linux 内核内存管理】虚拟地址空间布局架构 ⑦ ( Linux 内核地址空间布局简介 )

【Linux 内核内存管理】Linux 内核内存布局 ② ( x86_64 架构体系内存分布 | 查看 /proc/meminfo 文件 | /proc/meminfo 重要字段解析 )

缓存架构内存内存管理内核

文章目录一、查看 x86_64 架构体系内存分布二、/proc/meminfo 重要字段解析一、查看 x86_64 架构体系内存分布 ---- 执行 cat /proc/meminfo 命令 , 可以查看 " x86_64 架构体系内存分布 " ; 执行结果参考 : root@ubuntu:~/kernel/linux-5.6.14# cat /proc/meminfo MemTotal: 4001788 kB MemFree: 2312852 kB MemAvaila

韩曙亮

2023/03/30

1.6K0

【Linux 内核内存管理】虚拟地址空间布局架构 ⑤ ( Linux 内核中对 “ 虚拟地址空间 “ 的描述 | task_struct 结构体源码 )

管理架构进程内存管理内核

进程的 " 虚拟地址空间 " 由 mm_struct 和 vm_area_struct 两个数据结构描述 ;

韩曙亮

2023/03/30

3.7K0

【Linux 内核内存管理】虚拟地址空间布局架构 ⑤ ( Linux 内核中对 “ 虚拟地址空间 “ 的描述 | task_struct 结构体源码 )

Liunux内核内存管理之虚拟地址空间

虚拟内存就是在你电脑的物理内存不够用时把一部分硬盘空间作为内存来使用，这部分硬盘空间就叫作虚拟内存。

嵌入式Linux内核

2022/09/23

1.2K0

Liunux内核内存管理之虚拟地址空间

为什么MySQL内存占用这么大？ for InnoDB

缓存云数据库 SQL Server sql 数据库

这是 Innodb 引擎最重要的缓存，也是提升查询性能的重要手段。一般是global共享内存中占用最大的部分。在进行 SQL 读和写的操作时，首先并不是对物理数据文件操作，而是先对 buffer_pool 进行操作，然后再通过 checkpoint 等机制写回数据文件。占用的内存启动后就不会自动释放，默认通过LRU的算法镜像缓存淘汰，每次的新数据页，都会插入buffer pool的中间，防止前面的热数据被冲掉，长时间没动静的冷数据，会被淘汰出buffer pool，但是是被其它新数据占用了，所以一般这里不会释放的，除非重启（5.7 开始支持动态调整，默认以128M的chunk单位分配内存块）。innodb_buffer_pool主要包含数据页、索引页、undo 页、insert buffer、自适应哈希索引、锁信息以及数据字典等信息。

elontian田凌翔

2019/11/11

7.7K0

为什么MySQL内存占用这么大？ for InnoDB

Linux中查看进程的虚拟地址空间内存布局

gcc cat proc ps 布局

要查看一个进程的虚拟地址空间的内存布局，需要设置阻塞。如果没有设置阻塞，当./a.out按下去后，程序执行的速度非常快以至于来不及查看，所以需要设置阻塞。

lexingsen

2022/02/24

4K0

Linux中查看进程的虚拟地址空间内存布局

【Linux 内核内存管理】虚拟地址空间布局架构 ② ( 用户虚拟地址空间组成 | 内存描述符 mm_struct 结构体源码 )

内存内存管理内核数据源码

⑤ 堆内存 : 通过 malloc brk vmalloc 等函数申请的动态分配的内存 ;

韩曙亮

2023/03/30

6710

【Linux 内核内存管理】虚拟地址空间布局架构 ② ( 用户虚拟地址空间组成 | 内存描述符 mm_struct 结构体源码 )

ARM32 内核内存布局

编程算法 arm c++打包

Linux内核在启动时会打印出内核内存空间的布局图，下面是ARM Vexpress平台打印出来的内存空间布局图：

233333

2020/05/18

1.6K0

【Linux 内核内存管理】Linux 内核内存布局 ③ ( Linux 内核动态分配内存系统接口函数 | 统计输出 vmalloc 分配的内存 )

内存内存管理内核统计系统

Linux 内核 " 动态分配内存 " 是通过 " 系统接口 " 实现的 , 下面介绍几个重要的接口函数 ;

韩曙亮

2023/03/30

5.2K0

【Linux 内核内存管理】Linux 内核内存布局 ③ ( Linux 内核动态分配内存系统接口函数 | 统计输出 vmalloc 分配的内存 )

ARM64内核内存布局图

ARM64架构处理器采用48位物理寻址机制，最大可以寻找到256TB的物理地址空间。对于目前的应用来说已经足够了，不需要扩展到64位的物理地址寻址。虚拟地址也同样最大支持48位支持，所以在处理器的架构设计上，把虚拟地址空间划分为两个空间，每个空间最大支持256TB。Linux内核在大多数体系结构中都把两个地址空间划分为用户空间和内核空间。

233333

2020/05/18

2.6K0

微博的力量为什么这么大?

最近听闻「杨超越杯编程大赛」很是火热~ 网友纷纷评论，原来追星还可以这么硬核，没点实力还不敢追了。本期，小F通过爬取新浪微博评论，来看看大家对此次大赛有什么看法。在此之前，先查阅一下相关资料，发现从微博的手机端和移动端入手，效果还可以。网页版的微博，想都不用想，去了就是自讨苦吃。微博的反爬甚是厉害，我可不想去大动干戈... 虽然最后由于种种原因，还是没能够获取到完整的评论，不过也拿到了挺多数据。还是可以拿来一窥的。 / 01 / 网页分析网页端微博直接不看，先看一下手机端。网址为 https:

龙哥

2019/04/25

8350

【Linux】虚拟地址空间 --- 虚拟地址、空间布局、内存描述符、写时拷贝、页表…

linux 操作系统程序进程内存

1. 从程序的运行结果可以看出一些端倪，就是一个全局变量在地址并未改变的情况下，竟然出现了不同的值，这说明什么呢？首先一个变量肯定是只能有一个值的，但是地址只有一个，而变量的值却出现了两个，那么就必须说明一个结论，现在在内存中应该出现了两个变量了，因为一个变量是绝对不可能出现两个值的，所以我们可以推导出的结论就是内存中现在一定出现了两个全局变量global_value。

举杯邀明月

2023/04/12

1.5K0

【Linux】虚拟地址空间 --- 虚拟地址、空间布局、内存描述符、写时拷贝、页表…

Git目录为什么这么大

git 文件存储存储 node.js 编程算法

本文围绕git的目录过大，从git进行版本控制底层存储出发，简要分析Git目录过大的原因，以及如何处理

仙人技术

2021/08/31

1.3K0

Redis 的数据被删除，内存占用还这么大？

云数据库 Redis®存储

通过 CONFIG SET maxmemory 100mb或者在 redis.conf 配置文件设置 maxmemory 100mb Redis 内存占用限制。当达到内存最大值，会触发内存淘汰策略删除数据。

码哥字节

2022/10/28

1.4K0

Redis 的数据被删除，内存占用还这么大？

Linux虚拟地址空间布局

linux 数据结构编程算法

在多任务操作系统中，每个进程都运行在属于自己的内存沙盘中。这个沙盘就是虚拟地址空间(Virtual Address Space)，在32位模式下它是一个4GB的内存地址块。在Linux系统中, 内核进程和用户进程所占的虚拟内存比例是1:3，而Windows系统为2:2(通过设置Large-Address-Aware Executables标志也可为1:3)。这并不意味着内核使用那么多物理内存，仅表示它可支配这部分地址空间，根据需要将其映射到物理内存。

sunsky

2020/10/28

3.3K0

Linux 内核 VS 内存碎片（上）

（外部）内存碎片是一个历史悠久的 Linux 内核编程问题，随着系统的运行，页面被分配给各种任务，随着时间的推移内存会逐步碎片化，最终正常运行时间较长的繁忙系统可能只有很少的物理页面是连续的。由于 Linux 内核支持虚拟内存管理，物理内存碎片通常不是问题，因为在页表的帮助下，物理上分散的内存在虚拟地址空间仍然是连续的（除非使用大页），但对于需要从内核线性映射区分配连续物理内存的需求来说就会变的非常困难，比如通过块分配器分配结构体对象（在内核态很常见且频繁的操作），或对不支持 scatter/gather 模式的 DMA 缓冲器的操作等，会引起频繁的直接内存回收/规整，导致系统性能出现较大的波动，或分配失败（在慢速内存分配路径会根据页面分配标志位执行不同的操作）。

PingCAP

2020/12/11

3.5K0

Linux 内核 VS 内存碎片（上）

【Linux 内核内存管理】虚拟地址空间布局架构 ⑥ ( mm_struct 结构体源码 | vm_area_struct 结构体源码 )

struct 架构内存管理内核源码

mm_struct 结构体 , 定义在 Linux 内核源码的 linux-4.12\include\linux\mm_types.h#359 位置 ;

韩曙亮

2023/03/30

4450

【Linux 内核内存管理】虚拟地址空间布局架构 ⑥ ( mm_struct 结构体源码 | vm_area_struct 结构体源码 )

点击加载更多

相似问题

为什么我的C程序中虚拟地址这么大？

10

为什么巨蟒熊猫dataFrame的内存消耗这么大？

12

TLB中的内核内存(虚拟地址条目)？

24

为什么我的围棋程序的内存波动这么大？

23

内核虚拟地址空间中的高内存映射

11

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例