我正在构建一个数据管道,它使用json格式的RESTApi数据并推送到Spark Dataframe。Spark版本: 2.4.4 但是得到的错误是 df = SQLContext.jsonRDD(rdd)
AttributeError: type object 'SQLContext' has no attribute 'jsonRDD' 代码: from pyspark import SparkConf,SparkContext
from pyspark.sql import SparkSession
from urllib import urlopen
我需要将文件从一个S3存储桶目录移动到另外两个存储桶目录。我必须在Databricks笔记本上执行此操作。如果该文件有json扩展名,我将移动到jsonDir。否则,我会搬到otherDir去。大概我会用pyspark和databrick utils (dbutils)来做这件事。 我不知道S3存储桶的名称,只知道它的相对路径(称之为MYPATH)。例如,我可以这样做: dbutils.fs.ls(MYPATH) 它列出了S3目录中的所有文件。不幸的是,使用dbutils,您可以一次移动一个文件或移动所有文件(没有通配符)。我的程序的主要部分是: for file in fileList:
所以我想从一个目录中读取csv文件,作为pyspark dataframe,然后将它们附加到单个dataframe中。而不是像我们在熊猫身上做的那样,在pyspark中得到替代方案。
例如,在熊猫中,我们这样做:
files=glob.glob(path +'*.csv')
df=pd.DataFrame()
for f in files:
dff=pd.read_csv(f,delimiter=',')
df.append(dff)
在Pyspark中,我已经尝试过了,但没有成功
schema=StructType([])
union_d
这是我用来将我的Pyspark模型保存到Azure blob存储的代码。我能够连接到blob,并从Spark中查看其中的现有文件。model.write().overwrite().save("wasbs://containername@blobname.blob.core.windows.net/model.model")
Caused by: shaded.databricks.org.apache.hadoop.fs.azure.AzureException: Uploads to to public accounts using anonymous access is