我正在尝试使用sparklyr或SparkR连接到数据库。
现在我正在尝试使用sparklyr。
这就是我安装sparklyr的方法
install.packages("sparklyr")
sparklyr::spark_install() #installing spark
sprk <- spark_connect(master = "local") # this code works perfectly and it connects to the spark, and i can work further
sc <- spar
我有一个数据( numpy.ndarray ),它有5个元素,每个元素有2042行和两列。第一列包含日期(间隔15分钟),第二列包含温度。我正在工作的脚本,将找到24小时内的最高温度。我有一个可以工作的脚本。
x1=0
y1=95
maxTblue=[]
for i in range(int(len(data[0])/96)+1):
#collect the max temp for 24-hr period
maxTblue.append(max(data[0][x1:y1,1]))
#add 96 to shift to the next 24-hr perio
尝试使用以下代码将Parquet文件从R读入ApacheSpark2.4.3。它使用Windows 10在我的本地机器上工作,但在Databricks 5.5LTS上不工作。
library(sparklyr)
library(arrow)
# Set up Spark connection
sc <- sparklyr::spark_connect(method = "databricks")
# Convert iris R data frame to Parquet and save to disk
arrow::write_parquet(iris, "
这就是确切的信息:
Warning in do.call(.f, args, envir = .env) :
'what' must be a function or character string
在Azure环境中工作,使用R、spark和tidyverse进行数据处理。即使在运行空命令单元格时也会出现此消息。
可能来自于Databricks中的集群配置吗?我正在装载以下库:
# library(sparklyr)
# library(lubridate)
# library(dplyr)
# library(purrr)
# library(httr)
# libr
我有以下格式的数据,在列A中有唯一的ID,但这些ID可以出现在多个行中,代表针对该个人的重复事务。在列B中,我有该事务的日期时间戳,在列C中,有事务的名称;
Col A Col B Col C
ABC1 15/02/2018 16:26 Apple
ABC1 14/02/2018 11:26 Pear
ABC1 13/02/2018 09:11 Pear
ABC2 15/02/2018 16:26 Orange
ABC2 14/02/2018