【教程】Hadoop MapReduce 实践

1. 教程内容

1)目标

帮助您快速了解 MapReduce 的工作机制和开发方法

主要帮您解决以下几个问题:

  • MapReduce 基本原理是什么?
  • MapReduce 的执行过程是怎么样的?
  • MapReduce 的核心流程细节
  • 如何进行 MapReduce 程序开发?(通过7个实例逐渐掌握)

并提供了程序实例中涉及到的测试数据文件,可以直接下载使用

关于实践环境,如果您不喜欢自己搭建hadoop环境,可以下载使用本教程提供的环境,实践部分内容中会介绍具体使用方法

学习并实践完成后,可以对 MapReduce 工作原理有比较清晰的认识,并掌握 MapReduce 的编程思路

2)内容大纲

  1. MapReduce 基本原理
  2. MapReduce 入门示例 - WordCount 单词统计
  3. MapReduce 执行过程分析
  4. 实例1 - 自定义对象序列化
  5. 实例2 - 自定义分区
  6. 实例3 - 计算出每组订单中金额最大的记录
  7. 实例4 - 合并多个小文件
  8. 实例5 - 分组输出到多个文件
  9. MapReduce 核心流程梳理
  10. 实例6 - join 操作
  11. 实例7 - 计算出用户间的共同好友

2. 下载方式

原文发布于微信公众号 - 性能与架构(yogoup)

原文发表时间:2017-04-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏我是攻城师

浅谈Solr和ElasticSearch建索引性能优化策略

3505
来自专栏大数据智能实战

Spark 2.0.0正式版编译及问题分析

从上次编译了技术预览版2.0.1之后,官网终于放出了正式版本的2.0.0版本。 Spark Release 2.0.0(见http://spark.apach...

1966
来自专栏PPV课数据科学社区

干货丨23个适合Java开发者的大数据工具和框架

目前,编程人员面对的最大挑战就是复杂性,硬件越来越复杂,OS越来越复杂,编程语言和API越来越复杂,我们构建的应用也越来越复杂。根据外媒的一项调查报告,以下列出...

3938
来自专栏Hadoop实操

0457-如何使用Cloudera Manager手动收集诊断包

如果您拥有Cloudera Enterprise许可证,那么我们就能借助于Cloudera Manager提供的收集集群诊断包功能,通过Cloudera的后台S...

1294
来自专栏云加头条

CRS : 腾讯云 Redis 产品架构解析

Redis作为key-value数据库里的最热门的一员,在保持key-value数据库的简单快速的优点基础上,具有一些部分关系数据库的优点,例如数据结构丰富、操...

2.5K2
来自专栏Hadoop数据仓库

HAWQ技术解析(三) —— 基本架构

        HAWQ是一个Hadoop原生的SQL查询引擎,它结合了MPP数据库的关键技术和Hadoop的可扩展性。HAWQ在原生的HDFS上读写数据,MP...

3019
来自专栏Spark学习技巧

从零开始 Spark 性能调优

1813
来自专栏大数据和云计算技术

大数据和云计算技术周报(第40期):NoSQL特辑

本期有 HBase、HBase+ES、StreamSets、explain、Cassandra、Redis。 希望大家会喜欢!

1042
来自专栏CSDN技术头条

分享11款主流的开源编程工具

导读:有了开源编程工具,在基于开源许可证的情况下您可以轻松学习、修改、提高代码的质量,本文收集了11款最主流的且有价值的开源编程工具。或许会给您带来一丝惊喜。一...

2246
来自专栏Hadoop实操

如何在VMware上部署Hadoop

本文主要讲述如何在虚拟机(VM)上部署Hadoop,因为虚拟化技术很多家都有,但本文讨论的是VMware。建议阅读人群为:系统管理员,架构师或者开发人员。

61611

扫码关注云+社区

领取腾讯云代金券