腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

cwl_Java

专栏作者

2423

文章

2145734

阅读量

64

订阅数

快速学习-Azkaban入门

hive 网站任务调度 hadoop mapreduce

1）一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等 2）各任务单元之间存在时间先后及前后依赖关系 3）为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；

2020-03-25

5760

快速学习-Kylin概述

编程算法 hadoop sql mapreduce

Apache Kylin是一个开源的分布式分析引擎，提供Hadoop/Spark之上的SQL查询接口及多维分析（OLAP）能力以支持超大规模数据，最初由eBay Inc开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

2020-03-24

5250

快速学习-Sqoop入门与简介

hadoop mapreduce python 大数据数据库

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。

2020-03-20

5560

快速学习-Hive企业级调优

hive mapreduce hadoop

Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。例如：SELECT * FROM employees;在这种情况下，Hive 可以简单地读取 employee 对应的存储目录下的文件，然后输出查询结果到控制台。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走mapreduce。

2020-02-21

8890

快速学习-HBaseAPI操作

hbase TDSQL MySQL 版 hive mapreduce 数据库

通过HBase的相关JavaAPI，我们可以实现伴随HBase操作的MapReduce过程，比如使用MapReduce将数据从本地文件系统导入到HBase的表中，比如我们从HBase中读取一些原始数据后使用MapReduce做数据分析。

2020-02-21

4320

快速学习-Hive 基本概念

mapreduce hadoop 数据库 sql hive

Hive：由 Facebook 开源用于解决海量结构化日志的数据统计。 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质是：将 HQL 转化成 MapReduce 程序

2020-02-21

5040

快速学习-Hive查询

数据库 sql hive mapreduce

https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Select 查询语句语法：

2020-02-21

1.6K0

快速学习-Oozie的使用

xml ios jar mapreduce linux

目标：使用Oozie调度MapReduce任务分步执行： 1）找到一个可以运行的mapreduce任务的jar包（可以用官方的，也可以是自己写的） 2）拷贝官方模板到oozie-apps

2020-02-20

9560

快速学习-Azkaban概述

任务调度 mapreduce 数据库 sql hive

Azkaban 是由 Linkedin 公司推出的一个批量工作流任务调度器，主要用于在一个工作流内以一个特定的顺序运行一组工作和流程，它的配置是通过简单的 key:value 对的方式，通过配置中的 Dependencies 来设置依赖关系。Azkaban 使用 job 配置文件建立任务之间的依赖关系，并提供一个易于使用的 web 用户界面维护和跟踪你的工作流。

2020-02-19

4690

快速学习-Azkaban实战

网站 java jar mapreduce hive

注意：目前，Azkaban 上传的工作流文件只支持 xxx.zip 文件。zip 应包含 xxx.job 运行作业所需的文件和任何文件（文件名后缀必须以.job 结尾，否则无法识别）。作业名称在项目中必须是唯一的。

2020-02-18

4570

快速学习ES6新特性-map和reduce

mapreduce 编程算法

reduce() ：接收一个函数（必须）和一个初始值（可选），该函数接收两个参数：

2020-02-14

8170

快速学习-ES6语法指南

ecmascript mapreduce javascript node.js 编程算法

后端项目搭建完毕，接下来就是前端页面了。不过在这之前需要一些准备工作。我们需要学习ES6的语法标准。

2020-02-11

9480

大数据-Hive的基本概念

mapreduce hive 存储 jdbc 大数据

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类 SQL查询功能。

2019-12-26

4420

大数据-Hive排序

Distribute By：类似MR中partition，进行分区，结合sort by使用。

2019-12-26

7760

大数据-Hive联表语句

mapreduce hive 数据库 sql

左外连接：JOIN操作符左边表中符合WHERE子句的所有记录将会被返回。查询老师对应的课程

2019-12-26

6130

大数据-[案例]Reduce端实现JOIN

假如数据量巨大，两表的数据是以文件的形式存储在 HDFS 中, 需要用 MapReduce 程序来实现以下 SQL 查询运算

2019-12-26

2920

大数据-Shuffle过程

map 阶段处理的数据如何传递给 reduce 阶段，是 MapReduce 框架中最关键的一个流程，这个流程就叫 shuffle

2019-12-26

3.5K0

大数据-ReduceTask工作机制和ReduceTask并行度

Reduce 大致分为 copy、sort、reduce 三个阶段，重点在前两个阶段。copy 阶段包含一个 eventFetcher 来获取已完成的 map 列表，由 Fetcher 线程去 copy 数据，在此过程中会启动两个 merge 线程，分别为 inMemoryMerger 和 onDiskMerger，分别将内存中的数据 merge 到磁盘和将磁盘中的数据进行 merge。待数据 copy 完成之后，copy 阶段就完成了，开始进行 sort 阶段，sort 阶段主要是执行 finalMerge 操作，纯粹的 sort 阶段，完成之后就是 reduce 阶段，调用用户定义的 reduce 函数进行处理

2019-12-26

3480

大数据-MapTask运行机制

javascript mapreduce

简单概述：inputFile通过split被逻辑切分为多个split文件，通过Record按行读取内容给 map（用户自己实现的）进行处理，数据被map处理结束之后交给OutputCollector收集器，对其结果key进行分区（默认使用hash分区），然后写入buffer，每个map task都有一个内存缓冲区，存储着map的输出结果，当缓冲区快满的时候需要将缓冲区的数据以一个临时文件的方式存放到磁盘，当整个map task结束后再对磁盘中这个map task产生的所有临时文件做合并，生成最终的正式输出文件，然后等待reduce task来拉数据

2019-12-26

3660

大数据-经典案例上行流量倒序排序（递减排序）

分析，以需求一的输出数据作为排序的输入数据，自定义FlowBean,以FlowBean为map输出的key，以手机号作为Map输出的value，因为MapReduce程序会对Map阶段输出的key 进行排序

2019-12-26

5720

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态