R purrr:在分组/嵌套的tibble上映射

purrr 是 R 语言中一个强大的包，用于函数式编程，特别是在处理数据框（data frames）时非常有用。在分组（grouped）或嵌套（nested）的 tibble 上映射（map）是 purrr 的常见用法之一。

基础概念

tibble：是 R 中的一种数据框，它提供了更好的默认行为和更强的数据一致性。
分组（grouped）tibble：通过 dplyr 包的 group_by() 函数创建，允许你对数据进行分组操作。
嵌套（nested）tibble：通过 tidyr 包的 nest() 函数创建，允许你将数据框中的列表列进行嵌套。
映射（map）：purrr 包中的 map() 函数可以对列表或向量中的每个元素应用一个函数。

类型

map()：对列表或向量的每个元素应用一个函数。
map2()：对两个列表或向量的对应元素应用一个函数。
pmap()：对多个列表或向量的对应元素应用一个函数。
map_df()：对分组或嵌套的 tibble 应用一个函数，并返回一个新的 tibble。
map_int(), map_lgl(), map_dbl()：返回特定类型的向量。

应用场景

假设我们有一个分组的数据框，我们想要对每个组应用一个函数来计算某些统计量：

library(dplyr)
library(purrr)

# 创建一个示例数据框
df <- tibble(
  group = rep(letters[1:3], each = 3),
  value = rnorm(9)
)

# 分组数据框
grouped_df <- df %>% group_by(group)

# 对每个组计算均值
grouped_df %>%
  summarise(mean_value = mean(value))

如果我们想要使用 purrr 来实现同样的功能：

library(dplyr)
library(purrr)

# 创建一个示例数据框
df <- tibble(
  group = rep(letters[1:3], each = 3),
  value = r悯orm(9)
)

# 分组数据框
grouped_df <- df %>% group_by(group)

# 使用 purrr 计算每个组的均值
grouped_df %>%
  mutate(mean_value = map_dbl(group, ~ mean(df$value[df$group == .x])))

遇到的问题及解决方法

问题：在分组或嵌套的 tibble 上映射时，可能会遇到性能问题，尤其是在数据量较大时。

原因：purrr 的函数通常是递归的，这在处理大数据集时可能会导致性能下降。

解决方法：

并行处理：使用 purrr 的并行版本函数，如 map_dbl() 的并行版本 map_dbl_parallel()。
优化代码：确保函数本身是高效的，避免不必要的计算。
使用更高效的数据结构：例如，使用 data.table 替代 tibble 进行某些操作。

参考链接

通过这些资源和示例代码，你应该能够更好地理解和应用 purrr 在分组或嵌套的 tibble 上的映射功能。

R purrr:在分组/嵌套的tibble上映射

、

我想在一个嵌套的分组tibble的列上应用一个函数，如下例所示。= df)} fit# A tibble: 2 x 4 # Groups: Catholic &g

浏览 24提问于2021-02-12得票数 0

回答已采纳

1回答

按嵌套tibble中作为字符串向量的变量分组tibbles

、、、、

在嵌套的tibble中，我希望将列表列(下面示例中的data)中的tibbles按作为字符串向量(vars)的变量分组。tibble::tibble( y = c(1,1,1,2) tibble::tibble( y = c(1,1,1,2)

浏览 6提问于2021-12-01得票数 1

回答已采纳

1回答

将列表列表压缩为R中的数据流时，丢失重复的列名

、、、

通常，当使用R中的httr从API中获取数据时，我用来获取数据的大多数数据API都会以类似的嵌套列表格式返回数据，类似于这样： list( ), name = 'teamd' )) 有一段时间以来，我一直在研究一个很好的函数来扁平嵌套列表

浏览 6提问于2020-04-24得票数 0

回答已采纳

1回答

在嵌套的tibble中进行分组总结(带有排列)

、、

我有一个相当简单的问题，答案已经很复杂了(通过循环)，但我希望有人能在purrr中给我一个更优雅的答案。基本上，我在考虑为我的学生介绍排列，作为统计推断(即t和z值)的样板方法的一种计算替代。在我设置的玩具示例中，我正在做一些分组方法(通过dplyr''s group_by()和summarize())，以及通过modelr进行排列。我想知道如何将分组方法存储

浏览 1提问于2020-10-21得票数 0

回答已采纳

2回答

使用嵌套的dataframes访问purrr::map()中的分组变量

、、、

我使用tidyr::nest()与purrr::map() (-family)相结合，将data.frame分组，然后对每个子集进行一些奇妙的操作。考虑下面的示例，请忽略这样一个事实，即我不需要nest() map() 和map()来执行这个(这是一个过于简化的示例)：library(purrr)8 6 5 <t

浏览 0提问于2018-12-19得票数 4

回答已采纳

1回答

R:将复杂的XML转换为数据格式

、

它看起来如下(很明显，实际的文档要大得多)：<?xml version="1.0" encoding="utf-8"?<ALLELEVALUE>17.3</ALLELEVALUE> </LOCUS></ImportFile> 最后，我想要的是dataframe中的每一行包含一个SPECIMENI

浏览 3提问于2020-07-29得票数 0

回答已采纳

1回答

在带有map()的嵌套数据帧中使用filter() (和其他dplyr函数)

、、、

我试图使用map() of purrr包将filter()函数应用于存储在嵌套数据框架中的数据。 “你为什么不先过滤，然后再嵌套呢？--你可能会问。这会管用的(我会用这样的过程展示我想要的结果)，但我在寻找用purrr实现这一目标的方法。我想要的只是一个数据框架，两个列表列，两个列都是嵌套数据框架--一个完整的，一个过滤的。”<ti

浏览 0提问于2017-11-07得票数 15

回答已采纳

1回答

在两个嵌套对象上映射一个函数

、、

我正在尝试将一个函数dplyr::mutate映射到一个数据集中包含的两组嵌套的tibble上。我的目标是通过使用嵌套的tibbles db$data.x中的相应系数，向嵌套在db$data.y中的每个tibble中添加新列。下面，我提供了一个可重现的例子。db的每一行都引用了我们正在验证的不同的</

浏览 22提问于2019-06-18得票数 2

回答已采纳

4回答

如何将字符向量与R中tibble中的字符向量列表进行匹配？

、、、

我想将tibble中的A列与B列进行比较，看看A列中的元素是否存在于B列中。A列是一个字符向量。列B是字符向量的列表。我想逐行来做这件事。我可以用一个循环来做这件事。'e'))for (i in 1:nrow(my.tibble)){ its.in.it[[i]] = my.tibb

浏览 3提问于2018-11-07得票数 3

2回答

R-使用带有purrr/tidyr的glmnet

、、、、

我遵循这个R博客的代码，以便使用tidyr和purrr在我的数据中的组上运行模型。但是，我希望在嵌套的数据上使用glmnet而不是lm。与lm不同，glmnet/cv.glmnet将model.matrix作为x参数，我需要抽象出输入到model.matrix的公式，这就是支撑我的原因。因此，这是可行的： library(pur

浏览 4提问于2017-06-06得票数 1

回答已采纳

1回答

为什么当我使用‘`dplyr：：mutate()’时，`furrr::future_map_int()`比`purrr：：map_int()‘慢？

、、

我有一个tibble，里面有一个包含向量的列表列。我想要创建一个新列，说明每个向量的长度。由于这个数据集很大(3M行)，我想使用furrr包减少一些处理时间。然而，purrr似乎比furrr更快。library(dplyr, warn.conflicts = T)library(furrr) # first with purrr:我已经确保了数据没有分组，因为furrr对分组数据

浏览 2提问于2021-11-02得票数 5

回答已采纳

1回答

跨多个变量，分组运行单个线性回归

、、、、

我试图对大量变量进行简单的单线性回归，根据另一个变量分组。以mtcar数据集为例，我希望在mpg和其他变量(mpg ~ disp、mpg ~ hp等)之间运行一个单独的线性回归，并按另一个变量(例如cyl)分组。在每个变量上独立运行lm可以很容易地使用purrr::map (从这个伟大的教程-中修改)：library(tidyr) mtcars %3.4

浏览 4提问于2021-12-12得票数 5

回答已采纳

1回答

如何使用map2和rename_with修改嵌套列名？

、、

我正在尝试根据非嵌套列的值在嵌套数据文件中重命名一组列。下面是数据集的一个简化示例： ~year, ~data, 1980, tibble(GEOID_1980 = 3, TOTPOP_1980 = 4)使用purrr，我想重命名嵌套<em

浏览 0提问于2021-04-18得票数 1

回答已采纳

2回答

按名称分列的列表中数据格式值的平均值

、、

我有一个关于R和嵌套列表的问题。让我们假设我有一个具有以下结构的嵌套列表：library(purrr) "Q"=tibble( run1 = runif(12), run3= runif(12)), "ET1"=tibble

浏览 2提问于2022-10-13得票数 2

回答已采纳

1回答

使用数字和纳提布(作者-年份风格)的引用在rmarkdown。

、、、、

\citet{R-purrr}\item tidyr \citet{R-tidyr} note = {R package version 0.3.4}, url = {https://CRAN.R-project.org/package=purrr<

浏览 21提问于2022-09-08得票数 1

回答已采纳

1回答

嵌套/分组tibbles:当一个函数有多个参数时，使用purrr:map在变体中

、、、

我想使用mutate对嵌套/分组数据集的每一组应用一个函数。这个例子应该有助于解释目标。需要关于如何正确编码的建议。grp_kidney <- kidney %>% group_by(sex) %>% nest()> grp_kidney # A tibble: 2 x 22 <tibble

浏览 1提问于2021-02-11得票数 1

1回答

使用标准评估整理Chisq.Test输出的函数

、、

library(ggmosaic)library(dplyr)library(tidyr)这个问题是Jake提供的上一个答案的扩展(链接如下)。下面的代码在映射行中使用"happy$happy“来查找"happy”变量和其他分类变量之间的关联。该函数允许我将“幸福”更改为另一个变量，例如，“健康”或“婚姻”。我还想在函数中包含最后一行“未嵌套</

浏览 4提问于2017-02-23得票数 2

回答已采纳

1回答

numbers = sample(1:100, 10)) save(a, file = paste0("tmp/", filename, ".RData")) } 现在，我想读取嵌套tibble然而，我不知道如何加载存储在这些文件中的数据，使其最终保存在tibble中。a = purrr::map(path, function(path) { load(path) # does not do what I want

浏览 20提问于2021-10-28得票数 0

3回答

将嵌套列表cloumn按值多个，然后通过分组变量跨嵌套列表列进行添加。

我有一个带有一个嵌套列表列的大Ti球。嵌套列表列的每个元素都有10,000个迭代，我想对这些元素应用一个函数，然后按组对元素进行求和。我在下面创建了一个最小的可复制示例 b = c(2,3, 4, 2),tibble(a = list(c(11,16)

浏览 4提问于2020-03-17得票数 1

回答已采纳

1回答

正在从R读取googledrive内容

我的目标是获得Google Drive文件夹中所有文件的列表，以及这些文件的相关元数据。当我使用drive_ls时，它返回3列{name，id，drive_resource}。列表的结构如下: drive_resource (kind= "drive#file"，id = "abc"，...)。但是，列表中的一些内容不是由引号限定的，当不是分隔符时，有时也会使用逗号。我在包裹里找不到能处理这个的地方。使用包&#x

浏览 15提问于2020-07-25得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

R purrr:在分组/嵌套的tibble上映射

基础概念

相关优势

类型

应用场景

遇到的问题及解决方法

参考链接

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐