Albert陈凯-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Albert陈凯

专栏成员

530

文章

815381

阅读量

55

订阅数

Hive Tips Hive使用技巧

hive html sql mapreduce 数据库

http://blog.sina.com.cn/s/blog_6a7df1f1010197d2.html 在Hive中，某些小技巧可以让我们的Job执行得更快，有时一点小小的改动就可以让性能得到大幅提升，这一点其实跟SQL差不多。首先，Hive != SQL，虽然二者的语法很像，但是Hive最终会被转化成MapReduce的代码去执行，所以数据库的优化原则基本上都不适用于 Hive。也正因如此，Hive实际上是用来做计算的，而不像数据库是用作存储的，当然数据库也有很多计算功能，但一般并不建议在SQL中大

2018-04-08

1.3K0

MapReduce编程思想通俗理解

综述 Map（映射）与Reduce（化简）来源于LISP和其他函数式编程语言中的古老的映射和化简操作，MapReduce操作数据的最小单位是一个键值对。用户在使用MapReduce编程模型的时候，第一步就需要将数据抽象为键值对的形式，接着map函数会以键值对作为输入，经过map函数的处理，产生一系类新的键值对作为中间结果输出到本地。MapReduce计算框架会自动将这些中间结果数据按照键做聚合处理，并将键相同的数据分发给reduce函数处理（用户可以设置分发规则）。reduce函数以键和对应的值的集合作为输

2018-04-08

7790

Hadoop离线数据分析平台实战——380MapReduce程序优化Hadoop离线数据分析平台实战——380MapReduce程序优化

hadoop 数据分析 mapreduce hive

Hadoop离线数据分析平台实战——380MapReduce程序优化项目进度模块名称完成情况用户基本信息分析(MR)� 完成浏览器信息分析(MR) 完成地域信息分析(MR) 完成外链信息分析(MR) 完成用户浏览深度分析(Hive) 未完成订单分析(Hive) 未完成事件分析(Hive) 未完成调优的目的充分的利用机器的性能，更快的完成mr程序的计算任务。甚至是在有限的机器条件下，能够支持运行足够多的mr程序。说的直接一点就是：调优

2018-04-08

7190

Hadoop数据分析平台实战——280新增用户和总用户分析Hadoop离线数据分析平台实战——280新增用户和总用户分析

hadoop 数据分析 hive mapreduce 云数据库 SQL Server

Hadoop离线数据分析平台实战——280新增用户和总用户分析项目进度模块名称完成情况用户基本信息分析(MR)� 未完成浏览器信息分析(MR) 未完成地域信息分析(MR) 未完成外链信息分析(MR) 未完成用户浏览深度分析(Hive) 未完成订单分析(Hive) 未完成事件分析(Hive) 未完成业务总述在本次项目中只有两个地方需要新用户数据和总用户数据，分别为用户基本信息分析模块和浏览器分析模块，它们的区别主要就是统计分析的维度不

2018-04-08

1.1K0

Hadoop数据分析平台实战——050MapReduce结构以及编程模型介绍(做过MR程序略过)离线数据分析平台实战——050MapReduce结构以及编程模型介绍(做过MR程序略过)

hadoop 数据分析 mapreduce

离线数据分析平台实战——050MapReduce结构以及编程模型介绍(做过MR程序略过) MapReduce结构介绍 MapReduce(YARN)是Hadoop提供的一种处理海量数据的并行编程模型和计算框架，用于对大规模的数据进行并行计算。主要由resourcemanager和nodemanager两类节点构成。其中resourcemanager主要负责集群资源管理， nodemanager负责节点的资源管理。除此之外，当运行mapreduce任务的时候，会产生ApplicationMast

2018-04-08

6190

Hadoop数据分析平台实战——060深入理解MapReduce 01（案例）离线数据分析平台实战——060深入理解MapReduce 01（案例）

hadoop 数据分析 mapreduce 存储

离线数据分析平台实战——060深入理解MapReduce 01（案例）用户自定义数据类型 MapReduce中的数据类型至少有两种用途。第一个用途，这些类型定义的数据可以被序列化进行网络传输和文件存储，第二个用途，在shuffle阶段要可以进行大小比较。那么在hadoop中解决第一种方式采用hadoop的接口Writable，第二种采用接口java接口Comparable(Hadoop将这两个接口结合提供了WritableComparable接口)。 Hadoop提供了很多的内置数据类

2018-04-08

8910

【Hadoop】三句话告诉你 mapreduce 中MAP进程的数量怎么控制？

hadoop mapreduce

原文地址： MapReduce Input Split（输入分/切片）详解结论：经过以上的分析，在设置map个数的时候，可以简单的总结为以下几点：（1）如果想增加map个数，则设置mapred.map.tasks 为一个较大的值。（2）如果想减小map个数，则设置mapred.min.split.size 为一个较大的值。（3）如果输入中有很多小文件，依然想减少map个数，则需要将小文件merger为大文件，然后使用准则2。看了很多博客，感觉没有一个说的很清楚，所以我来整理一下。

2018-04-08

3.3K0

Spark对比Hadoop MapReduce 的优势

spark hadoop mapreduce 存储

与Hadoop MapReduce相比，Spark的优势如下： ❑ 中间结果：基于MapReduce的计算引擎通常将中间结果输出到磁盘上，以达到存储和容错的目的。由于任务管道承接的缘故，一切查询操作都会产生很多串联的Stage，这些Stage输出的中间结果存储于HDFS。而Spark将执行操作抽象为通用的有向无环图（DAG），可以将多个Stage的任务串联或者并行执行，而无须将Stage中间结果输出到HDFS中。 ❑ 执行策略：MapReduce在数据Shuffle之前，需要花费大量时间来排序，而Spar

2018-04-04

9880

用故事说明什么是MapReduce与洋葱辣椒酱

mapreduce 分布式

我问妻子：“你真的想要弄懂什么是MapReduce？” 她很坚定的回答说“是的”。因此我问道：我：你是如何准备洋葱辣椒酱的？（以下并非准确食谱，请勿在家尝试）妻子：我会取一个洋葱，把它切碎，然后拌入盐和水，最后放进混合研磨机里研磨。这样就能得到洋葱辣椒酱了。妻子：但这和MapReduce有什么关系？我：你等一下。让我来编一个完整的情节，这样你肯定可以在15分钟内弄懂MapReduce. 妻子：好吧。我：现在，假设你想用薄荷、洋葱、番茄、辣椒、大蒜弄一瓶混合辣椒酱。你会怎么做呢？妻子：

2018-04-04

8240

为什么之前的MapReduce系统比较慢

本文就两个问题进行讨论：1. 相比于Shark，为什么像Hive之类的传统MapReduce框架比较慢? 2. 对于细粒度的任务模型(fine-grained task model)，究竟有些什么优势

2018-04-04

1.1K0

详细探究Spark0.8的shuffle实现

spark mapreduce hadoop

Background 在MapReduce框架中，shuffle是连接Map和Reduce之间的桥梁，Map的输出要用到Reduce中必须经过shuffle这个环节，shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现，自然也实现了shuffle的逻辑，本文就深入研究Spark的shuffle是如何实现的，有什么优缺点，与Hadoop MapReduce的shuffle有什么不同。 Shuffle Shuffle是MapReduce框架中的一个特定的

2018-04-04

7450

Spark和MapReduce相比，都有哪些优势？

spark mapreduce 数据处理 hadoop 大数据

在实际应用中，由于MapReduce在大量数据处理时存在高延迟的问题，导致Hadoop无力处理很多对时间有要求的场景，越来越多的公司开始采用Spark作为与计算大数据的核心技术。 Spark和MapReduce相比，都有哪些优势？一个最明显的优点就是性能的大规模提升。通俗一点说，我们可以将MapReduce理解为手工作坊式生产，每一个任务都是由作坊独立完成。涉及到大规模的生产时，由于每一个作坊都要独立处理原料采购、制作、存储、运输等等环节，需要花费大量的人力（计算资源）、物力（能源消耗）和运输（IO操

2018-04-04

1.3K0

MapReduce设计模式

MapReduce设计模式(MapReduce Design Pattern) 整个MapReduce作业的阶段主要可以分为以下四种：　　1、Input-Map-Reduce-Output 2、Input-Map-Output 3、Input-Multiple Maps-Reduce-Output 4、Input-Map-Combiner-Reduce-Output 下面我将一一介绍哪种场景使用哪种设计模式。 Input-Map-Reduce-Output Input➜Map➜Reduce➜Outpu

2018-04-04

5920

MapReduce设计模式

一：概要模式 1：简介概要设计模式更接近简单的MR应用，因为基于键将数据分组是MR范型的核心功能，所有的键将被分组汇入reducer中本章涉及的概要模式有数值概要（numerical summarization），倒排索引（inverted index），计数器计数（counting with counter）2：概要设计模式包含 2.1：关于Combiner和paritioner combiner：reducer之前调用reducer函数，对数据进行聚合，极大的减少通过网络传输到reduce

2018-04-04

1.2K0

mapreduce项目调优

一、调优的目的充分的利用机器的性能，更快的完成mr程序的计算任务。甚至是在有限的机器条件下，能够支持运行足够多的mr程序。二、调优的总体概述从mr程序的内部运行机制，我们可以了解到一个mr程序由mapper和reducer两个阶段组成，其中mapper阶段包括数据的读取、map处理以及写出操作(排序和合并/sort&merge)，而reducer阶段包含mapper输出数据的获取、数据合并(sort&merge)、reduce处理以及写出操作。那么在这七个子阶段中，能够进行较大力度的进行调优的就

2018-04-04

7400

用MapReduce分析Hbase将结果插入mysql中

mapreduce hbase 云数据库 SQL Server

从HBASE读取清洗过的数据，写入到mysql的表中 NewInstallUserRunner.java 计算新增用户入口类 NewInstallUserRunner的所有属性方法 main方法：

2018-04-04

1.6K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态