前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >MapReduce之Combiner合并

MapReduce之Combiner合并

作者头像
孙晨c
发布2020-07-31 15:53:20
5100
发布2020-07-31 15:53:20
举报
文章被收录于专栏:无题~
  • Combiner是MR程序中Mapper和Reducer之外的一种组件(本质是一个Reducer类)
  • Combinr组件的父类就是Reducer
  • Conbimer只有在驱动类里设置了之后,才会运行
在这里插入图片描述
在这里插入图片描述
  • Combiner和Reducer的区别在于运行的位置: map----sort---copy---sort(shuffle阶段)---reduce
  1. ==Combiner是在每一个MapTask所在的节点运行
  2. Reducer是接收全局所有Mapper的输出结果==
  • Combiner的意义就是对每一个MapTask的输出进行局部汇总,以减小网络传输量(减少磁盘IO和网络IO)
  • Cormbiner能多应用的前提是不能影响最终的业务逻辑,而且,Combiner的输出kv应该跟Reducer的输入kv类型要对应起来。 Combiner用在加减操作的场景,不能用在乘除操作的场景 比如:
在这里插入图片描述
在这里插入图片描述
  • Combiner既有可能在MapTask端调用: ①每次溢写前会调用Combiner对溢写的数据进行局部合并 ②在merge时,如果溢写的片段数>=3,如果设置了Combiner,Combiner会再次对 数据进行Combine!
  • Combiner既有可能在ReduceTask端调用: ③shuffle线程拷贝多个MapTask同一分区的数据,拷贝后执行merge和sort, 如果数据量过大,需要将部分数据先合并排序后,溢写到磁盘! 如果设置了Combiner,Combiner会再次运行!
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2020-07-29 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档