cwl_Java

1767 篇文章
36 人订阅

MapReduce

cwl_java

快速学习-Hive企业级调优

Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如:SELECT * FROM employees;在这种情况下,H...

4520
cwl_java

快速学习-HBaseAPI操作

通过HBase的相关JavaAPI,我们可以实现伴随HBase操作的MapReduce过程,比如使用MapReduce将数据从本地文件系统导入到HBase的表中...

6210
cwl_java

快速学习-Hive 基本概念

Hive:由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表...

3910
cwl_java

快速学习-Hive查询

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 查询语句语法:

5020
cwl_java

快速学习-Oozie的使用

目标:使用Oozie调度MapReduce任务 分步执行: 1)找到一个可以运行的mapreduce任务的jar包(可以用官方的,也可以是自己写的) 2)...

4400
cwl_java

快速学习-Azkaban概述

Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器,主要用于在一个工作流内以一个特定的顺序运行一组工作和流程,它的配置是通过简单的 ke...

5620
cwl_java

快速学习-Azkaban实战

注意: 目前,Azkaban 上传的工作流文件只支持 xxx.zip 文件。zip 应包含 xxx.job 运行作业所需的文件和任何文件(文件名后缀必须以.j...

6020
cwl_java

快速学习ES6新特性-map和reduce

reduce() :接收一个函数(必须)和一个初始值(可选),该函数接收两个参数:

6610
cwl_java

快速学习-ES6语法指南

后端项目搭建完毕,接下来就是前端页面了。不过在这之前需要一些准备工作。我们需要学习ES6的语法标准。

6220
cwl_java

大数据-Hive的基本概念

Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL查询功能。

7110
cwl_java

大数据-Hive排序

Distribute By:类似MR中partition,进行分区,结合sort by使用。

6410
cwl_java

大数据-Hive联表语句

左外连接:JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。 查询老师对应的课程

4900
cwl_java

大数据-[案例]Reduce端实现JOIN

假如数据量巨大,两表的数据是以文件的形式存储在 HDFS 中, 需要用 MapReduce 程 序来实现以下 SQL 查询运算

4310
cwl_java

大数据-Shuffle过程

map 阶段处理的数据如何传递给 reduce 阶段,是 MapReduce 框架中最关键的一个流 程,这个流程就叫 shuffle

14610
cwl_java

大数据-ReduceTask工作机制和ReduceTask并行度

Reduce 大致分为 copy、sort、reduce 三个阶段,重点在前两个阶段。copy 阶段包含一 个 eventFetcher 来获取已完成的 m...

4120
cwl_java

大数据-MapTask运行机制

简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给 map(用户自己实现的)进行处理,数据被map处理结束...

6320
cwl_java

大数据-经典案例统计求和

需求一: 统计求和 统计每个手机号的上行流量总和,下行流量总和,上行总流量之和,下行总流量之和 分析:以手机号码作为key值,上行流量,下行流量,上行总流量,...

6100
cwl_java

大数据-MapReduce规约

每一个 map 都可能会产生大量的本地输出,Combiner 的作用就是对 map 端的输出先做 一次合并,以减少在 map 和 reduce 节点之间的数据传...

5120
cwl_java

大数据-MapReduce中的计数器

计数器是收集作业统计信息的有效手段之一,用于质量控制或应用级统计。计数器还可辅 助诊断系统故障。如果需要将日志信息传输到 map 或 reduce 任务, 更好...

4010
cwl_java

大数据-MapReduce分区

在 MapReduce 中, 通过我们指定分区, 会将同一个分区的数据发送到同一个 Reduce 当 中进行处理

4410

扫码关注云+社区

领取腾讯云代金券