我有一个来自s3的大型(大约85 GB压缩)压缩文件,我正试图在AWS上使用Spark (现在有一个m4.xLarge主实例和两个m4.10xLargecore实例,每个实例都有一个100 GB的EBS我知道gzip是一种不可拆分的文件格式, 认为应该重新划分压缩文件,因为Spark最初给出了一个带有一个分区的RDD。但是,在做完之后
scala> val raw = spark.read.format("com.databrick
我正在读取星星之火中的gzip文件,并在rdd上进行重新分区以获得并行性,而对于gzip文件,它将在信号核心上读取并生成。按照,理想的分区数是集群中我可以在重新分区期间设置的核数,但是在自动缩放集群的情况下,这个数目会根据集群的状态和其中有多少执行者而变化。文件夹不断增长,gzip文件不断地出现在其中,gzip文件的大小为10 it,未压缩大小为150 it