我有一个脚本,多个数据帧的联合和插入会导致CSV文件。我需要优化它的执行速度。我最近学习了缓存和取消持久化。这是我所做的: val grc = Tables.getGRC(spark) // This is my first df.val grc_cache = grc.cache()
var sigma = Tables.getSIGMA(spark, use_database_sigma(0)) // Second D
我正在使用hadoop 3.0.0和spark 2.2.0中的以下scala代码处理数据帧。BAQ是ID列,AAA是日期YYMMDD的字符串列。scala> val dtfAbnoFirs=dtfAbno.filter("AAA>='20201201' and BAQ<>'0'").scala> dtfBaseEsti.show(10,false);
org.ap