问题 我有一个巨大的Spark Dataframe,叫做x。我正在使用databricks。X有数十亿条记录,太大了,不能收集到一台机器上。我要怎么做才能让它正常工作?: dplyr::summarize_all(x,mean) 更多信息 这是我目前收到的错误消息: Error in UseMethod("tbl_vars") :
no applicable method for 'tbl_vars' applied to an object of class "SparkDataFrame" 和 class(x) 返回:1 "S
我在我的远程centos节点中有火花集群,我想从本地windows R studio (我在本地窗口中使用Rstudio桌面)连接那个远程火花集群。 Sys.setenv(SPARK_HOME = "/home/remoteclusterpath/spark-1.6.0-bin-hadoop2.6")
.libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib