在分组的data.table上并行运行用户定义的for循环函数

，可以通过使用data.table库中的by参数和parallel库来实现。

首先，data.table是一个用于处理大型数据集的R语言库，它提供了高效的数据操作和计算功能。在data.table中，可以使用by参数将数据集按照指定的列进行分组。

然后，为了在分组的data.table上并行运行用户定义的for循环函数，可以使用parallel库中的mclapply函数。mclapply函数可以将任务分发给多个处理器核心并行执行。

下面是一个完善且全面的答案示例：

在分组的data.table上并行运行用户定义的for循环函数的步骤如下：

导入必要的库：

library(data.table)
library(parallel)

创建一个示例的data.table对象：

# 创建示例data.table对象
dt <- data.table(
  group = c("A", "A", "B", "B"),
  value = c(1, 2, 3, 4)
)

定义一个用户自定义的for循环函数：

# 用户自定义的for循环函数
my_function <- function(x) {
  # 在这里编写你的for循环逻辑
  # 这里只是一个示例，将每个值乘以2
  result <- x * 2
  return(result)
}

使用by参数将data.table按照指定的列进行分组，并在每个分组上并行运行用户定义的for循环函数：

# 在分组的data.table上并行运行for循环函数
dt[, result := mclapply(.SD, my_function, mc.cores = parallel::detectCores()), by = group]

这里使用了.SD来表示每个分组的子数据表，mclapply函数将my_function应用于每个分组的子数据表，并将结果赋值给新的列result。

这样，就可以在分组的data.table上并行运行用户定义的for循环函数了。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云产品：云服务器（https://cloud.tencent.com/product/cvm）
腾讯云产品：云数据库MySQL版（https://cloud.tencent.com/product/cdb_mysql）
腾讯云产品：云原生容器服务TKE（https://cloud.tencent.com/product/tke）
腾讯云产品：人工智能平台（https://cloud.tencent.com/product/ai）
腾讯云产品：物联网开发平台（https://cloud.tencent.com/product/iotexplorer）
腾讯云产品：移动推送服务（https://cloud.tencent.com/product/umeng_push）
腾讯云产品：对象存储COS（https://cloud.tencent.com/product/cos）
腾讯云产品：区块链服务（https://cloud.tencent.com/product/baas）

请注意，以上链接仅供参考，具体产品选择应根据实际需求进行评估和决策。

在分组的data.table上并行运行用户定义的for循环函数

r、for-loop、parallel-processing、data.table、grouping

我在R中使用一个大约有6e6行的data.table，并创建了一个函数，我通过data.table传递该函数，以基于两个分组值创建一个新列。从技术上讲，我的函数遍历分组参数的每一行并执行一些非常简单的代数操作，但是考虑到我的data.table的大小，这将需要相当长的时间。我熟悉foreach

浏览 15提问于2019-09-14得票数 0

1回答

将每个组与data.table中的所有其他组进行比较

r、loops、data.table

我正在寻找一种data.table方法来潜在地消除double for循环。我正在尝试使用DTW算法将每个组与其他组进行比较。这里是一个MWE (未优化)：library(SimilarityMeasures) tt <- data.table(A=1:100,B=2:101,C=rep，C是分组变量。我试图提出一些lapply解决方案，并在data.table中结合使用.SD或.BY方法，但失败了。我们的目标是拥有一个

浏览 2提问于2018-09-22得票数 3

1回答

可以并行化for循环和依赖关系吗？

r、rparallel

大家好，资深R用户，我对R非常陌生，不知道是否有可能将我的进程并行化。我的数据集基本上是从一个pcap文件中派生出来的，在这个文件中，我提取了与特定协议-MODBUS/TCP相对应的数据包。有超过800k的分组，并且每两个连续的分组对应于特定(即，相同的) MODBUS事务的查询/响应。因为有些值包含在查询/响应中，所以我创建了一个

浏览 4提问于2015-06-24得票数 0

1回答

如何在我自己的包中使用data.table::setDTthreads()？

r、data.table、r-package

我是第一次开发非常小的包(也许在我的问题中它很重要，我想把它发布到CRAN上)。这个包使用data.table和base R中的函数。我想利用data.table::setDTthreads()函数提供的并行计算的好处。当用户加载data.table包时，此函数会立即调用，但我在开发包时不会这样做。因为我知道

浏览 50提问于2021-06-26得票数 2

回答已采纳

2回答

在逻辑矩阵中有效地组合(和)列组

r、matrix

ANDed的数字向量ncol(exampleMatrix)中指定的，其中要分组在一起的列具有相同的值(从1到n的值，其中n <= ncol(exampleMatrix)和1:n中的每个值至少使用一次)。[,1] = exampleMatrix[,4] [,3] = exampleMatrix[,1] 我目前的做法基本上是这样<em

浏览 0提问于2019-01-02得票数 3

回答已采纳

1回答

在Hadoop服务器上分发R处理

r、hadoop、apache-spark、parallel-processing、distributed-computing

我目前有一个在本地运行的R代码。它由一个foreach部分组成，我已经使用%dopar%函数成功地并行化了这个部分。我希望将这个循环从单CPU上的并行化转换为Hadoop服务器上的发行版。有没有人能建议我一个合适的方法，以及我应该使用哪些包？附加信息:我的Hadoop设置是一个Hortonworks HDP，并且我的forea

浏览 2提问于2017-04-05得票数 0

1回答

用data.table实现并行/多线程

r、multithreading、parallel-processing、data.table

我有超过10亿次观测的大量数据，我需要执行一些缓慢的字符串操作。我的代码非常简单：如果我没有弄错的话，data.table在用by调用它时使用多线程，并且我试图使用它来并行这个操作。，我没有看到性能的提高。所以我的问题是：如果是，是否存在启用/禁用多线程的条件？有什么方法可以让用户</e

浏览 4提问于2021-10-06得票数 5

回答已采纳

1回答

如何提取重复行并通过某些变量合并它们

r、duplicates

Cryptosporidiosis有些身份证是复制的，因为他们都是白人和西班牙裔，所以这为他们的两个“种族”创造了一个观察。我想合并这些身份证，并让他们的种族阅读“白人，西班牙裔”。有什么简单的方法吗？我想这会有点复杂。谢谢!

浏览 4提问于2022-03-21得票数 0

回答已采纳

1回答

如何在R中求和多行

尝试对这些数据执行一些基本的操作，只需添加同一时间的所有行。我试过SUM和dcast，但我不确定它是否在做我想做的事情。我想把每一个日期和时间的所有可用的、免费的和总数字加在一起。., sum)这样的东西，但是只有当我将数据更改为在df中有一个可用的、免费的或完全可用的数据时，这才能起作用。

浏览 3提问于2015-08-13得票数 1

回答已采纳

1回答

分组以在data.table中形成多个逗号分隔列。

r、data.table、data-manipulation

问题：I基本上希望根据data.table语法对数据进行分组，并并行创建包含逗号分隔值的两个或多个列(如下面的示例所示)。方法：--我想到了一个lapply，在这里我可以提供一个列的列表，我想用逗号分隔这些列；但是，结果并不像预期的那样。有什么建议吗？编辑我正在寻找一种方法，我只需要提供一个列表/列向量，然后在这个列表上应用这个函数(类似于不工作的lapply方法)。library(data.ta

浏览 1提问于2020-05-15得票数 2

回答已采纳

1回答

因子的R，最大值

r、max

我想使用R，并且有一个简单的dataframe:第一列是ID，第二列是分数。每个ID有36行和相应的分数。有几千张身份证。我想要生成一个摘要，其中包含:每个唯一ID的一个条目，以及它们在36行中的最大得分。apply(dataframe，2，max)将给出最大值，但不按ID细分。我知道有一系列的“应用”函数可以应用于一个表上，但我不知道如何组合才能得到我想要的。如果它在Excel中，它将相当于一

浏览 0提问于2015-07-13得票数 0

回答已采纳

2回答

子集a data.table，以便按组在持续时间内获取最近的3行或更多行

r、data.table

是否有一种更快的方法在组内划分一个data.table，保持最近的3个或更多的日期发生在2年内？我有一组数据与分组列和日期列，我需要保持最近的3个或更多的日期在2年内。我编写了一个函数，该函数以data.table作为对象，并使用for循环计算datei日期，然后再对行进行细分，并在一年内发生至少3个日期时中断循环。然后将此函数</em

浏览 0提问于2018-12-22得票数 1

回答已采纳

1回答

并行计算时数据表的子集

r、foreach、split、data.table

我正在尝试使用data.table运行并行计算。我有一个大的数据集，我想与每一组独立和平行的学科一起工作。Let: DataP是一个大数据集: ID、x1、x2、x3、group# Data preparationscl<-makeCluster(8) foreach(i=1:l, .combine = rbind) %do

浏览 1提问于2016-03-16得票数 1

回答已采纳

1回答

从data.table对象调用用户定义函数

r、data.table

我试图调用一个用户定义的函数，以便创建一个依赖于我的data.table中其他列的值的新列。在简单的情况下，我不会遇到任何错误，但是当我使用条件语句或循环时，用户定义的函数似乎接收整个列作为参数。从堆栈溢出(例如：)报告的其他情况中，我了解到这个问题可以通过ifelse函数来克服if语句。但是

浏览 1提问于2020-04-21得票数 0

回答已采纳

1回答

R:选择子集而不复制

r、immutability、subset、apply、copy-on-write

是否有一种方法可以从对象(数据帧、矩阵、向量)中选择子集，而无需复制所选数据的？我使用相当大的数据集，但从不更改它们。然而，为了方便起见，我经常选择要操作的数据子集。每次创建一个大子集的副本是非常缺乏内存的，但是普通索引和subset (从而xapply()函数族)都会创建所选数据的副本。因此，我正在寻找能够克服这个问题的函数或数据结构。一些可能的方法可以满足我的需要，并有望在一

浏览 2提问于2012-03-05得票数 12

回答已采纳

1回答

这种策略是并行计算还是分布式计算？MPI

parallel-processing、mpi、distributed-computing、distributed-system

我有一个函数来计算适应度值，比如func()。在我的实现中，我使用MPI进行并行化。在这个while循环中，我使用MPI并行化9个func()调用。这意味着，在main循环中调用9次func()，我并行化了三个节点中每个节点调用3个func()调用并将结果返回给主节点的

浏览 2提问于2022-03-07得票数 0

回答已采纳

1回答

并行化控制

azure-data-lake、u-sql

我在行集上运行一个自定义处理器，它似乎不是并行运行的。基础的~1GB文本文件首先读入通过循环分区的表中。“提取”运行在200个顶点上，但随后(在“聚合”节点下)，执行各种复杂计算的处理只发生在两个顶点上，尽管并行性参数要高得多。是否有一个特殊的提示需要用来指定编译器来使用更多的顶点？是否有需要

浏览 0提问于2015-12-24得票数 1

回答已采纳

1回答

嵌套并行循环：“并行内循环作为函数”中的“并行外部循环”

c++、c、multithreading、parallel-processing、openmp

我希望在并行外部循环中运行一个函数，其中包含一个for循环(应该并行运行)。如下所示： ...#pragma omp parallel for myfunction();} 考虑到上面的代码，我希望为main()函数中的循环创建5个并行线程，并且我希

浏览 4提问于2016-12-04得票数 4

回答已采纳

2回答

使用多核和并行编程加速data.table组

r、data.table、mclapply

我有一个很大的代码，就速度而言，聚合步骤是当前的瓶颈。在我的代码中，我希望加快数据分组的步骤，使其更快。，这是相当快的，但在我的情况下，我仍然在寻找进一步的加速。我愿意将我的数据类型更改为data.frame或idata.frame对象(理论上，idata.frame应该比data.frames更快)。我做了一些研究，似乎plyr包有一些并行的

浏览 3提问于2013-09-30得票数 20

回答已采纳

1回答

加载多个.cvs.gz文件的并行脚本和每组计算列的平均值

r、multithreading、dataframe、parallel-processing、data.table

我试图在R中并行处理一个进程，以加载和计算8个.csv.gz文件的每组列的平均值。基于类似的帖子，我尝试了下面的代码，但似乎普通的循环和并行需要相似的时间，我使用的是一个带有8个核心的Mac。

浏览 1提问于2022-04-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在分组的data.table上并行运行用户定义的for循环函数

相关·内容

在分组的data.table上并行运行用户定义的for循环函数

将每个组与data.table中的所有其他组进行比较

可以并行化for循环和依赖关系吗？

如何在我自己的包中使用data.table::setDTthreads()？

在逻辑矩阵中有效地组合(和)列组

在Hadoop服务器上分发R处理

用data.table实现并行/多线程

如何提取重复行并通过某些变量合并它们

如何在R中求和多行

分组以在data.table中形成多个逗号分隔列。

因子的R，最大值

子集a data.table，以便按组在持续时间内获取最近的3行或更多行

并行计算时数据表的子集

从data.table对象调用用户定义函数

R:选择子集而不复制

这种策略是并行计算还是分布式计算？MPI

并行化控制

嵌套并行循环：“并行内循环作为函数”中的“并行外部循环”

使用多核和并行编程加速data.table组

加载多个.cvs.gz文件的并行脚本和每组计算列的平均值

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐