返回数据集的所有元素,通常是在使用filter或者其他操作的时候,返回的数据量比较少时使用。
比如,显示刚刚定义的数据集内容。...将数据集作为文本文件保存到指定的文件系统、hdfs、或者hadoop支持的其他文件系统中。...保存为sequence文件
scala> var data = sc.parallelize(List(("A",1),("A",2),("B",1)),3)
data: org.apache.spark.rdd.RDD...统计KV中,相同K的V的个数
//创建数据集
scala> var data = sc.parallelize(List(("A",1),("A",2),("B",1)))
data: org.apache.spark.rdd.RDD...针对每个参数执行,通常在更新互斥或者与外部存储系统交互的时候使用
// 创建数据集
scala> var data = sc.parallelize(List("b","a","e","f","c"))