此zip文件夹位于Azure Data Lake Storage上,并使用服务原则将其挂载在DBFS Databricks文件系统上。当使用普通的python代码解压6 6GB的文件时,我得到了1.98 6GB的解压文件。 请建议一种直接读取txt文件并将其存储为spark Dataframe的方法。我尝试过使用python代码,但直接从python中读取时出现了
我想读取具有csv文件的zip文件。我尝试过许多方法,但没有成功。在我的例子中,我应该读取文件的路径在中。例如,当我必须在databricks中读取csv时,我使用以下代码:
dfDemandaBilletesCmbinad = spark.read.csv("/mnt/data/myCSVfile.csv", h