最近,我们从"EMR on HDFS“--> "EMR on S3”(启用了一致视图的EMRFS)迁移,我们意识到Spark 'SaveAsTable‘(拼图格式)写入S3的速度比HDFS慢约4倍,但我们找到了使用Spark1.6的DirectParquetOutputCommitter -1的变通方法。S3速度慢的原因-我们必须支付所谓
我有一个脚本,多个数据帧的联合和插入会导致CSV文件。我需要优化它的执行速度。我最近学习了缓存和取消持久化。这是我所做的: val grc = Tables.getGRC(spark) // This is my first df.val grc_cache = grc.cache()
var sigma = Tables.getSIGMA(spark, use_database_sigma(0)) // Second DF= "