我正在学习spark,我想知道在spark脚本期间,我是否应该在执行运行DF的代码后清理数据帧?friendsByAge.groupBy("age").avg("friends").show()
# now do something unrelated to friends DF 在上面的例子中,在整个驱动程序脚本执行过程中(即使我不再需要它),friendsByAge DF是否一直保存在内存中?如果是这样,我是应该以某种方式清理它,还是一旦我s
我在spark数据帧上使用缓存时遇到了一些问题。我的期望是在对数据帧进行缓存之后,会在第一次需要数据帧时创建并缓存数据帧。对dataframe的任何进一步调用都应来自缓存val mydf = spark.sql("read about 400 columns from a hive table").我预计第一次需要一些时间,因为数据正在缓存中
在星火外壳上,我使用下面的代码从csv文件中读取
val df = spark.read.format("org.apache.spark.csv").option("header", "true").option("mode", "DROPMALFORMED").csv("/opt/person.csv") //spark here is the
如果SparkVersion2.2.0中的缓存RDD和DataFrame返回映射大小2:rdd: org.apache.spark.rdd.RDDParallelCollectionRDD[0] at parallelize at <console>:24
df: org.apache.spark</em