: Array[(String, (String, String))] = Array((1,(F,1)), (2,(M,56)), (3,(M,25)), (4,(M,45)), (5,(M,25))...scala> val rating =ratingsRdd.map(_.split("::"))
rating: org.apache.spark.rdd.RDD[Array[String]] = MapPartitionsRDD...[10] at map at :26
scala> rating.first
res9: Array[String] = Array(1, 1193, 5, 978300760).../**
* .年龄段在“18-24”的男人,最喜欢看10部电影
*/
object PopularMovieAnalyzer {
def main(args: Array[String])...DistributedCache可以帮我们将小文件分发到各个节点的Task工作目录下,这样,我们只需在程序中将文件加载到内存中(比如保存到Map数据结构中),然后借助Mapper的迭代机制,遍历另一个大表中的每一条记录