分区的算法是 对key进行哈希,取到一个哈希值,用这个哈希值与reduceTask的数量进行取余。余几,这个数据就放在余数编号的partition
排序的方法有 正序,倒序,字典排序法
对数据进行局部聚合。减少网络传入的次数,降低了网络开销。
将相同的key提取出来作为唯一的key,将相同的key对应的value获取出来作为value的list。
本文分享自 作者个人站点/博客 前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文参与 腾讯云自媒体同步曝光计划 ,欢迎热爱写作的你一起参与!