我必须运行很多随机森林模型,所以我想在我的服务器上使用doParallel来加快进程。
然而,有些模型需要比其他模型更长的时间,甚至可能会导致错误。我想并行运行8个模型,如果模型抛出错误和/或跳过,那么工作人员应该继续运行。每个模型的结果都保存在硬盘上,这样我就可以在以后访问并组合它们。
TryCatch
或
.errorhandling="remove"
没有解决问题。我得到了
Error in unserialize(socklist[[n]]) : error reading from connection
代码示例:我尝试了%do%并成功地运行了模型2-7。但在%dopar%中,我得到了显示的错误
foreach(model=1:8, .errorhandling="remove") %dopar% {
tryCatch({
outl <- rf_perform(...)
saveRDS(outl,file=getwd() %+% "/temp/result_" %+% model %+% ".rds")
}, error = function(e) {print(e)}, finally = {})
}
发布于 2015-12-29 16:36:06
我想我发现了一个问题:如果您导出到集群的对象太大,要么R不能再处理它,要么就会有超时
我的数据对象导出器是500万行300个变量,输出到16个集群。
cl <- makeCluster(16)
registerDoParallel(cl)
clusterExport(cl, "data")
#data must not be too large
我把物体缩小成较小的部分,现在它起作用了。作者可能希望在doParallel文档中提到这一点,或者在对象太大时抛出警告。
https://stackoverflow.com/questions/34504853
复制相似问题