前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >「R」分组应用和排序去重的应用与比较

「R」分组应用和排序去重的应用与比较

作者头像
王诗翔呀
发布2022-01-21 08:55:21
9140
发布2022-01-21 08:55:21
举报
文章被收录于专栏:优雅R优雅R

问题与方案

假设我们有这样一个数据集:

代码语言:javascript
复制
df <- data.frame(
  c1 = c("a", "a", "a", "b", "b", "c"),
  c2 = c(1, 3, 2, 1, 4, 2)
)

df
out   c1 c2
out 1  a  1
out 2  a  3
out 3  a  2
out 4  b  1
out 5  b  4
out 6  c  2

如果我们想保留每个c1分类和分类下的最大值,你会怎么操作?

思考一分钟。

如果使用惯了tidyverse套装,我们脑子里容易冒出来的是这样的解法:使用分组应用。

代码语言:javascript
复制
library(dplyr)
df |> 
  group_by(c1) |> 
  summarize(c2 = max(c2, na.rm = TRUE))
out # A tibble: 3 × 2
out   c1       c2
out   <chr> <dbl>
out 1 a         3
out 2 b         4
out 3 c         2

在数据不是特别大的时候,使用这种策略没有任何问题。但如果分组有成千上万,分组的时间代价就很高了。有没有其他的方式可以解决该问题呢?

其实处理这种去重问题,特别还涉及到排序,我们可以采用先排序再去重的方式解决。

那么解决的方案就成了:

代码语言:javascript
复制
df |> 
  arrange(desc(c2))|> 
  distinct(c1, .keep_all = TRUE)
out   c1 c2
out 1  b  4
out 2  a  3
out 3  c  2

哪个更快?

如果想知道哪一个方案更快,我们需要构造一个模拟数据集进行测试。

代码语言:javascript
复制
n <- 10000000
ng <- 100
gs <- expand.grid(LETTERS, 1:50) |>
  mutate(g = paste0(Var1, Var2)) |>
  pull(g) |> head(ng)

set.seed(2021)
data <- data.frame(
  g = sample(gs, size = n, replace = TRUE),
  val = rnorm(n, sd = 100)
)

分别包装2种解法:

代码语言:javascript
复制
solution1 <- function(df) {
  df |> 
    group_by(g) |> 
    summarize(val = max(val, na.rm = TRUE))
}

solution2 <- function(df) {
  df |> 
    arrange(desc(val))|> 
    distinct(g, .keep_all = TRUE)
}

使用专门的测试包进行测试:

代码语言:javascript
复制
rv <- microbenchmark::microbenchmark(
  solu1 = solution1(data),
  solu2 = solution2(data),
  times = 100
)
plot(rv)

可以看的出来,在这个只有2个变量的数据集测试中,第一种方法远快于第二种方法。但注意,这里其实存在很多的变量,包括数据的行数、分组数目、以及实际情况下数据集的变量数目。哪种更适合需要根据现实场景进行测试考察。

本文的重点是,问题的解决之道往往不只一种,当程序慢下来的时候,我们不要忘记思考和尝试其他的方案。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 优雅R 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题与方案
  • 哪个更快?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档