这基本上是一个count by key,末尾有一个saveAsHadoop,用于将数据存储到DynamoDB中。一个经典的- map-reduce。
似乎在映射之后,spark盲目地混洗数据,然后将reduce函数应用于每个混洗的部分。如果reduce函数主要减少输出,那么最好在混洗之前对每个分区排序并应用reduce,然后再对每个分区应用reduce,这很容易,因为reduce函数关联和通勤。
在Spark core的" example“目录中(我使用的是Spark 1.2.0),有一个名为"SparkPageRank.scala”的示例,
val sparkConf = new SparkConf因此,当我监视保存随机数据的目录时,随机数据存储在每次迭代后不断增加。我应该如何构造应用程序代码,以便ContextCleaner的doCleanupShuffle在一定的时间间隔(例如,几次迭代)后被激活,这样我就可以防止需要多次迭代的计算中不断增加的随机数据存储?