文章/答案/技术大牛

发布

问dopar (运行并行的循环)
EN

Stack Overflow用户

提问于 2019-02-09 21:15:50

回答 1查看 1.8K关注 0票数 1

这个问题与在多个核上运行for循环特别相关。我正在努力学习如何使用并行核运行代码。实际的代码有点复杂，所以我在这里重新创建，这是一个非常基本和稀释的代码，这里是。注此示例仅用于说明性目的，而不是实际代码。

library(parallel)
library(foreach)
library(doParallel)

#Creating a mock dataframe
Event_ID = c(1,1,1,1,1,2,2,2,2,2,3,3,3,3)
Type=c("A","B","C","D","E","A","B","C","D","E","A","B","C","D")
Revenue1=c(24,9,51,7,22,15,86,66,0,57,44,93,34,37)
Revenue2=c(16,93,96,44,67,73,12,65,81,22,39,94,41,30)
z = data.frame(Event_ID,Type,Revenue1,Revenue2)
#replicates z 5000 times
n =5000
zz=do.call("rbind", replicate(n, z, simplify = FALSE))
zz$Revenue3 = 0

#################################################################
#   **foreach, dopar failed attempt**
#################################################################
cl=parallel::makeCluster(14,type="PSOCK") #I have 8 core 16 threads but use 14 here. Please edit this accordingly.
registerDoParallel(cl)
home1 = function(zz1){
  foreach(i=1:nrow(zz1), .combine = rbind) %dopar% {
    zz1[i,'Revenue3'] = sqrt(zz1[i,'Revenue1'])+(zz1[i,'Revenue2'])
  }
  return(zz1)
}

zzz = home1(zz1=zz)
stopCluster(cl) 

#################################################################
#Non parallel implementation
#################################################################
home2 = function(zz2){
  zz3=zz2
  for (i in 1:nrow(zz3)){
    zz3[i,'Revenue3'] = sqrt(zz3[i,'Revenue1'])+(zz3[i,'Revenue2'])
  }
  return(zz3)
}
zzzz=home2(zz2=zz)

我创建了一个dataframe，并尝试使用foreach和dopar，但是它似乎不起作用。接下来，我将提供代码的非并行版本的实现。然而，平行版本对我不起作用。我得到的输出df与输入矩阵相同。我意识到我可能犯了一个基本的错误，但我没有足够的经验去弄清楚到底是什么错了。任何帮助都将不胜感激。

我意识到，我的非并行版本不是最优的，可以改进，但这是一个例子。

foreach

doparallel

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-02-09 22:34:33

首先，请注意，在使用parallel、doParallel或foreach包并行运行时，在现有data.frames中重写值时会受到一定的限制。当这个包执行并行化时，它启动一个并行运行的R会话，它执行返回以某种方便的形式执行的任何结果的计算。这意味着这些工作会话不包含原始会话中的任何对象，除非提供(带有.export或作为函数参数)。future、promises和ipc包可以在修改原始会话中的变量时允许异步处理，但代价是一些简单性。

请注意，由于每个会话将使用一个独立的核心，使用比核心更多的会话会降低整体性能。

至于实现本身，如何处理并行化取决于计算所需的内容以及要返回的格式。如果您想执行简单的逐行计算，可以使用以下内容：

library(iterators)
cl=parallel::makeCluster(4) #I have 8 core 16 threads but use 14 here. Please edit this accordingly.
registerDoParallel(cl)
stopCluster(cl)
home1 <- function(zz1){
  output <- foreach(x = iter(zz1, by = "row"), .combine = rbind) %dopar% {
    x[["Revenue3"]] <- sqrt(x[["Revenue1"]]) + x[["Revenue2"]]
    x
  }
  output
}
zzz <- home1(zz1=zz)
stopCluster(cl)

请注意，这里我使用了Iterator结构，它可以用于高效地遍历行/列。如果这是您正在寻找的计算类型，那么我建议采用向量化的方法，因为这将极大地提高性能。

zz[["Revenue3"]] <- sqrt(zz[["Revenue2"]) + zz[["Revenue1"]]

在我的4核心笔记本电脑上，后者的速度大约快13000倍。

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/54610825

复制

相似问题

问dopar (运行并行的循环)
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问dopar (运行并行的循环)EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问dopar (运行并行的循环)
EN