我是spark的新手,正在寻找一个完全清除缓存的选项。深入研究后,我发现我有两个选择 SparkInstance.catalog().clearCache(); // removes all the tables from the in-memory cache我相信取消持久化RDD还会从catalog()包含的内存中删除所有数据。如果我说错了,请纠正我
我缓存了一个非常大的RDD (它仍然可以放在内存中),但是因为它太大了,所以我想尽快取消它。This timeout is controlled by spark.rpc.askTimeoutval transformation2 = secondTransformation(transformation1).cache取消RD
我的应用程序中有一个处理一个大数据集的管道--伪代码:data.join(df1, "key") //etc, more transformationssave, without cache it will trigger recomputation of whole dataset
但是,当我调用data.unpersist() (即就位(1) )时,Spark将从存储所有数据集中删除,也从extension数据集中删除,该数据集不是我试图取消</em