我有一个目录,其中有多个文件夹,每个文件夹包含多个具有相同压缩文件名的.gz文件"spark.log“。我如何一次解压缩所有这些文件并将它们重命名为gz文件?
我的数据是这样的
文件夹列表
A
B
C
D
在其中的每一个文件中,
A
spark.log.gz
spark.log.1.gz
spark.log.2.gz
spark.log.3.gz
B
spark.log.gz
spark.log.1.gz
spark.log.2.gz
spark.log.3.gz
C
spark.log.gz
spark.log.1.gz
spark.log.2.gz
spark.log.3.gz
D
我每天都有一份工作,把阿夫罗变成地板。每小时的Avro文件为20G,在读取avro文件时按年、月、日和小时划分,如下所示,spark.read.format("com.databricks.spark.avro").load(basePath).where($year=2020 and $month=9 and $day=1 and $hour=1).write.paritionBy(paritionCol).parquet(path) --作业运行时间为1.5小时Note:整个文件夹basePath有36 TB的avro格式数据。
但是,对于相同的火花配置(内存和实例等),下
我有一个Python脚本,它使用fastavro库来转换csv文件并根据提供的模式序列化它:
from fastavro import writer
from fastavro.schema import load_schema
import csv
schema = load_schema('schema.avsc')
def csv_reader():
with open('data.csv') as f:
yield from csv.DictReader(f)
with open('data.snappy.avro
我正在从BigQuery表中导出数据,该表将名为prop12的列定义为数字数据类型。请注意,目标格式为AVRO,不能更改。
bq extract --destination_format AVRO datasetName.myTableName /path/to/file-1-*.avro
当我读取avro数据时,使用spark无法将此数字数据类型转换为Integer。
--prop12: binary (nullable = true)
cannot resolve 'CAST(`prop12` AS INT)' due to data type mismatch: can