,true 为有放回的抽样, false 为无放回的抽样,seed 用于指定随机 数生成器种子。...join(otherDataset, [numTasks]):在类型为(K,V)和(K,W)的 RDD 上调用,返 回一个相同 key 对应的所有元素对在一起 的(K,(V,W))的 RDD
cogroup...(otherDataset, [numTasks]):在类型为(K,V)和(K,W)的 RDD 上调用,返 回一个(K,(Iterable,Iterable))类型 的 RDD
cartesian(otherDataset...):笛卡尔积
coalesce(numPartitions):缩减分区数,用于大数据集过滤后,提高 小数据集的执行效率。...saveAsObjectFile(path):用于将 RDD 中的元素序列化成对象, 存储到文件中。