目前,我正在进行一项练习,要求在PySpark中创建数据库和表,并使用它们。问题是我之前创建了一个数据库,所以我决定在启动新的数据库之前删除所有相关的内容(spark-warehouse folder、metastore_db folder、derby.log file)。
现在,当我第一次用下面的代码创建一个新的数据库和新表时,它可以工作。
spark.sql("CREATE DATABASE IF NOT EXISTS asm1_db")
spark.sql("USE asm1_db")
dfQ1.write.bucketBy(2, "Id").mode("overwrite").saveAsTable("asm1_db.tableQ1")
dfA1.write.bucketBy(2, "ParentId").mode("overwrite").saveAsTable("asm1_db.tableA1")但是表和数据库不会保存。例如,以下代码:
spark.sql("USE asm1_db") => Can't find the database我必须再次创建数据库,即使这样,表也不会保存
spark.sql("CREATE DATABASE IF NOT EXISTS asm1_db")
spark.sql("USE asm1_db")
spark.sql("select Id from tableq1").show() => Can't find the table tableq1当我检查Pycharm上的文件夹结构时,spark-warehouse folder和所有db/table仍然存在

我必须再次对表运行整个写数据,但是数据非常大,所以我不想每次都运行它。我知道saveAsTable方法创建了一个永久表,而不是临时
我认为问题是因为我删除了之前的metastore_db folder,derby.log file。那么还有什么可以恢复的吗?我想,每次创建新数据库时,它都会重新创建。
发布于 2022-10-18 14:47:29
在SparkSession创建代码中生成。您必须添加.enableHiveSupport()。例如
spark = SparkSession \
.builder \
.master("local[*]") \
.appName("SparkSQLTableDemo") \
.enableHiveSupport() \
.getOrCreate()https://stackoverflow.com/questions/74014445
复制相似问题