首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用SparkR的data.frames ()将大R的as.DataFrame()加载到星火中?

如何使用SparkR的data.frames ()将大R的as.DataFrame()加载到星火中?
EN

Stack Overflow用户
提问于 2016-09-19 02:06:55
回答 2查看 1.3K关注 0票数 1

我的目标是装载大R data.frame到火花。data.frame的大小是五百万。不同类型的行和7列。一旦加载到R中,这个data.frame就占用了大约的时间。200 of内存但是,当我尝试使用as.DataFrame()函数将其加载到Spark中时,R会话将永远被占用,它已经运行了1小时,我不得不取消该操作。

以下是详细信息:

我正在创建以下数据集,以便在本例中使用:

代码语言:javascript
运行
复制
n=5e6 # set sample size

d <- data.frame(
    v1=base::sample(1:9,n,replace=TRUE), 
    v2=base::sample(1000:9000,n,replace=TRUE), 
    v3=seq(as.Date("2016-01-01"), as.Date("2016-12-31"), by = "day")[base::sample(1:365,n,replace=TRUE)],
    v4=LETTERS[base::sample(1:length(LETTERS),n,replace=TRUE)], 
    v5=base::sample(1000:9000,n,replace=TRUE)/1000, 
    v6=seq(ISOdate(2016,1,1), ISOdate(2018,1,1), "sec")[base::sample(1:63158401,n,replace=TRUE)],
    v7=c(TRUE,FALSE)[base::sample(1:2,n,replace=TRUE)]
)

上面创建了一个示例data.frame

大小,约200:

代码语言:javascript
运行
复制
paste0("size: ", round(as.numeric(object.size(d))/1000000,1)," mb")

接下来,我创建一个火花会话:

代码语言:javascript
运行
复制
Sys.setenv(SPARK_HOME='C:\\soft\\spark-2.0.0-bin-hadoop2.7',HADOOP_HOME='C:\\soft\\hadoop')
.libPaths(c(file.path(Sys.getenv('SPARK_HOME'), 'R', 'lib'),.libPaths()))
Sys.setenv('SPARKR_SUBMIT_ARGS'='"sparkr-shell"')

library(SparkR)
library(rJava)
sparkR.session(enableHiveSupport = FALSE,master = "local[*]", sparkConfig = list(spark.driver.memory = "1g",spark.sql.warehouse.dir="C:\\soft\\hadoop\\bin"))

现在,我正在尝试将上面创建的data.frame加载到Spark中:

代码语言:javascript
运行
复制
d_sd <- as.DataFrame(d)

上面的命令要花费很长时间才能运行。

我做错什么了吗?它是否与我原来的R data.frame中的列的类()相关?我是否应该采取另一种方法将大型数据集从R加载到Spark?如果是,请随时提出建议。

提前谢谢你。

PS:

我能够使用这种方法快速转换和操作星火中的小数据集。

以下是我正在运行的R会话和操作系统的一些背景信息:

R版本3.2.5 (2016-04-14)平台:x86_64-W64-mingw32 32/ x64 (64位),运行于: Windows 7 x64 (build 7601) Service Pack 1

我正在运行微软版本的R(革命)在Windows 7专业版(64位),8GB内存。处理器: i5-2520M @ 2.50GHz

编辑2016-09-19:

谢谢,泽迪·奥尔蒂斯和莫希特·班萨尔。基于你的回答,我尝试了以下几点,但我仍然面临着同样的问题:

代码语言:javascript
运行
复制
Sys.setenv(SPARK_HOME='C:\\soft\\spark-2.0.0-bin-hadoop2.7',HADOOP_HOME='C:\\soft\\hadoop')
.libPaths(c(file.path(Sys.getenv('SPARK_HOME'), 'R', 'lib'),.libPaths()))
Sys.setenv('SPARKR_SUBMIT_ARGS'='"sparkr-shell"')

library(SparkR)
library(rJava)
sparkR.session(enableHiveSupport = FALSE,master = "local[*]", sparkConfig = list(spark.driver.memory = "1g",spark.sql.warehouse.dir="C:\\soft\\hadoop\\bin"))


n=5e6 # set sample size

d_sd <- createDataFrame(sqlContext,data=data.frame(
        v1=base::sample(1:9,n,replace=TRUE), 
        v2=base::sample(1000:9000,n,replace=TRUE), 
        v3=seq(as.Date("2016-01-01"), as.Date("2016-12-31"), by = "day")[base::sample(1:365,n,replace=TRUE)],
        v4=LETTERS[base::sample(1:length(LETTERS),n,replace=TRUE)], 
        v5=base::sample(1000:9000,n,replace=TRUE)/1000, 
        v6=seq(ISOdate(2016,1,1), ISOdate(2018,1,1), "sec")[base::sample(1:63158401,n,replace=TRUE)],
        v7=c(TRUE,FALSE)[base::sample(1:2,n,replace=TRUE)]
    ))

将R转换为Spark的命令运行了几个小时。不得不取消。请协助。

编辑2016-12-14:

上面的尝试是使用Spark1.6.1和R3.2.0进行的。最近,我使用Spark2.0.2(最新版本)和R3.2.5进行了尝试,并遇到了同样的问题。

任何帮助都将不胜感激。

EN

Stack Overflow用户

发布于 2016-09-19 03:23:22

这与内存限制有关,为什么您必须首先创建Base并将其转换为Spark DataFrame?

您可以将这两个步骤合并为一个,并获得结果:

代码语言:javascript
运行
复制
Sys.setenv(SPARK_HOME='C:\\soft\\spark-2.0.0-bin-hadoop2.7',HADOOP_HOME='C:\\soft\\hadoop')
.libPaths(c(file.path(Sys.getenv('SPARK_HOME'), 'R', 'lib'),.libPaths()))
Sys.setenv('SPARKR_SUBMIT_ARGS'='"sparkr-shell"')

library(SparkR)
library(rJava)
sparkR.session(enableHiveSupport = FALSE,master = "local[*]", sparkConfig = list(spark.driver.memory = "1g",spark.sql.warehouse.dir="C:\\soft\\hadoop\\bin"))

然后可以加载SDF:

代码语言:javascript
运行
复制
n=5e6 # set sample size

d_sd <- as.DataFrame(data.frame(
    v1=base::sample(1:9,n,replace=TRUE), 
    v2=base::sample(1000:9000,n,replace=TRUE), 
    v3=seq(as.Date("2016-01-01"), as.Date("2016-12-31"), by = "day")[base::sample(1:365,n,replace=TRUE)],
    v4=LETTERS[base::sample(1:length(LETTERS),n,replace=TRUE)], 
    v5=base::sample(1000:9000,n,replace=TRUE)/1000, 
    v6=seq(ISOdate(2016,1,1), ISOdate(2018,1,1), "sec")[base::sample(1:63158401,n,replace=TRUE)],
    v7=c(TRUE,FALSE)[base::sample(1:2,n,replace=TRUE)]
))

您也可以参考类似的问题:How best to handle converting a large local data frame to a SparkR data frame?

票数 2
EN
查看全部 2 条回答
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39564422

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档