文章/答案/技术大牛

发布

社区首页 >问答首页 >从宽到长格式重塑的最佳方法

问从宽到长格式重塑的最佳方法
EN

Stack Overflow用户

提问于 2018-11-12 23:23:01

回答 1查看 104关注 0票数 0

我想知道从宽到长格式重塑数据的最好方法是什么。

除了个人风格品味，或代码的可读性。就性能而言，哪一个更好？

为什么应该首选一种方法，还有其他可能的原因吗？

示例数据：

v <- 1:3
names(v) <- paste0("col_", 1:3)
d <- purrr::map_df(v, function(x) runif(5, 0, 1))
d$id <- 1:5
# # A tibble: 5 x 4
# col_1  col_2 col_3    id
# <dbl>  <dbl> <dbl> <int>
# 1 0.262 0.755  0.132  1
# 2 0.306 0.0344 0.571  2
# 3 0.143 0.628  0.933  3
# 4 0.401 0.709  0.629  4
# 5 0.353 0.691  0.405  5

从宽到长的方法和期望的输出：

library(dplyr)
# tidyr
d %>% tidyr::gather("key", "value", -id) %>% head()
# reshape2
reshape2::melt(d, id.vars=c("id")) %>% head()
# DT
data.table::melt(dt, id.vars=c("id")) %>% head()

# output:
#   id variable     value
# 1  1    col_1 0.2618043
# 2  2    col_1 0.3059923
# 3  3    col_1 0.1433476
# 4  4    col_1 0.4007300
# 5  5    col_1 0.3531845
# 6  1    col_2 0.7550252

dataframe

reshape

回答 1

Stack Overflow用户

发布于 2018-11-12 23:23:01

在性能方面，似乎在更大的例子中，reshape2::melt是最快的，但老实说，我们谈论的是毫秒级。

数字较大的示例：

# bigger numbers example
v <- 1:100
names(v) <- paste0("col_", 1:100)
d <- purrr::map_df(v, function(x) runif(100000, 0, 1))
d$id <- 1:100000

dt <- as.data.table(d) # for dt

微基准测试：

microbenchmark::microbenchmark(
  gather = {gather(d, "key", "value", -id)},
  melt = {melt(d, id.vars=c("id"))},
  dt = {melt(dt, id.vars=c("id"))},
  times = 100
)
# Unit: milliseconds
# expr        min       lq     mean   median       uq      max neval
# gather 50.75434 51.61489 64.90385 61.06314 68.10268 201.7082   100
# melt   12.08457 12.58755 19.77046 13.13005 22.29556 162.0733   100
# dt     42.80573 44.50143 50.62359 45.04182 54.15235 187.1778   100

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53265197

复制

相似问题

问从宽到长格式重塑的最佳方法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从宽到长格式重塑的最佳方法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从宽到长格式重塑的最佳方法
EN