做过一段时间spark的应用开发的小伙伴都会渐渐发现,很没趣,因为都是调API。那么,真的是没趣吗,还是说你本身没有去深入研究呢?通过本文你就会发现自己没成长是哪的问题了。...1. mappartition粗介
本问主要想讲如何高效的使用mappartition。
首先,说到mappartition大家肯定想到的是map和MapPartition的对比。...mkString(","))
结果
30,27,24,21,18,15,12,9,6,3,60,57,54,51,48,45,42,39,36,33
4. mappartitions高效用法
注意,3中的例子...,会在mappartition执行期间,在内存中定义一个数组并且将缓存所有的数据。...对于这样的案例,Spark的RDD不支持像mapreduce那些有上下文的写方法。其实,浪尖有个方法是无需缓存数据的,那就是自定义一个迭代器类。