前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop——MapReduce分布式计算框架

Hadoop——MapReduce分布式计算框架

作者头像
羊羽shine
发布2019-08-05 17:46:21
7300
发布2019-08-05 17:46:21
举报
文章被收录于专栏:Golang开发Golang开发

概述

源自2014年12月的Google发表的MapReduce论文,它是一个编程模型,用于大数据量的计算,MapReduce是分布式计算框架。具有海量数据离线处理。对于大数据量的计算,通常采用的处理方式就是并行计算,MapReduce就是一种简化并行计算的编程模型,它使得并没有并行计算经验的开发人员也可以计算并行应用程序

设计目标

MapReduce采用的是分而治之的思想,即把大规模数据集的操作,分发给一个主节点管理下的各个子节点共同完成,然后整合各个子节点的中间结果,从而得到最终的计算结果。就是分散任务,汇总结果

编程模型

MapReduce分成Map阶段和Reduce阶段。用户只需要编写map()和reduce两个函数,即可完成简单的分布式程序的设计 map()函数以key/value对作为输入,产生另外一系列key/value对作为中间输出写入本地磁盘,MapReduc框架会自动将这些中间数据按照key值进行聚集,且key值相同(用户可设定聚集策略,默认情况下是对key值进行哈希取模)的数据被统一交给reduce()函数处理。 reduce()函数以key及对应的value列表作为输入,经合并key相同的value值后,产生另外一系列key/value作为最终输出写入HDFS.

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.08.04 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 概述
  • 设计目标
  • 编程模型
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档