腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

暴走大数据

专栏作者

298

文章

535117

阅读量

99

订阅数

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

linux spark hive sql mapreduce

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

大数据真好玩

2021-11-05

2K0

Hive重点难点：Hive原理&优化&面试(上)

hive sql 数据库 mapreduce

Hive SQL的执行计划描述SQL实际执行的整体轮廓，通过执行计划能了解SQL程序在转换成相应计算引擎的执行逻辑，掌握了执行逻辑也就能更好地把握程序出现的瓶颈点，从而能够实现更有针对性的优化。此外还能帮助开发者识别看似等价的SQL其实是不等价的，看似不等价的SQL其实是等价的SQL。可以说执行计划是打开SQL优化大门的一把钥匙。

大数据真好玩

2021-10-25

1K0

Hadoop重点难点：可靠性/Failover/Shuffle

mapreduce 大数据文件存储

对Map的结果进行排序并传输到Reduce进行处理 Map的结果并不是直接存放到硬盘,而是利用缓存做一些预排序处理 Map会调用Combiner，压缩，按key进行分区、排序等，尽量减少结果的大小每个Map完成后都会通知Task，然后Reduce就可以进行处理。

大数据真好玩

2021-10-12

4880

Hive 中的排序和开窗函数

排序操作是一个比较常见的操作，尤其是在数据分析的时候，我们往往需要对数据进行排序，hive 中和排序相关的有四个关键字，今天我们就看一下，它们都是什么作用。

大数据真好玩

2021-09-18

1.5K0

【硬刚大数据之面试篇】2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇

大数据 hadoop node.js vr 视频解决方案 mapreduce

2021年初的时候，关于Hadoop要退休淘汰的PR文章甚嚣尘上。其中MapReduce思想最为人所诟病，因为其并不友好的写代码方式，高昂的维护成本以及较差的运行效率。

大数据真好玩

2021-09-18

5490

Hive文件存储格式和Hive数据压缩小总结

存储 hadoop 文件存储 hive mapreduce

HiveQL语句最终都将转换成为hadoop中的MapReduce job,而MapReduce job可以有对处理的数据进行压缩。

大数据真好玩

2021-09-18

1K0

Apache Spark 3.0 自适应查询优化在网易的深度实践及改进

mapreduce sql spark

本文基于 Apahce Spark 3.1.1 版本，讲述 AQE 自适应查询优化的原理，以及网易有数在 AQE 实践中遇到的痛点和做出的思考。

大数据真好玩

2021-07-07

7970

【大数据哔哔集20210108】Spark Shuffle 和 Hadoop Shuffle有什么异同？

mapreduce spark 大数据数据结构 linux

Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前，具体可以分为map端和reduce端前后两个部分。

大数据真好玩

2021-01-26

7820

【大数据哔哔集20210107】聊聊MapReduce中的排序/二次排序/辅助排序

编程算法大数据 mapreduce

【大数据哔哔集】是小编发起的每日大数据圈子了最高频、时尚、前沿的面试题目以及资讯等，欢迎您关注。

大数据真好玩

2021-01-26

8020

【大数据哔哔集20210111】HDFS中的常用压缩算法及区别

hadoop mapreduce javascript hive 文件存储

sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。可以把SequenceFile当做是一个容器，把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。SequenceFile文件并不按照其存储的Key进行排序存储，SequenceFile的内部类Writer提供了append功能。SequenceFile中的Key和Value可以是任意类型Writable或者是自定义Writable。

大数据真好玩

2021-01-21

9360

MapReduce Shuffle 和 Spark Shuffle

spark mapreduce linux 数据结构

Shuffle的本意是洗牌、混洗的意思，把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中，Shuffle更像是洗牌的逆过程，指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据，以便reduce端接收处理。其在MapReduce中所处的工作阶段是map输出后到reduce接收前，具体可以分为map端和reduce端前后两个部分。

大数据真好玩

2020-06-28

2.5K0

Apache Calcite原理极简入门

express hive html mapreduce

Apache Calcite 是独立于存储与执行的SQL解析、优化引擎，广泛应用于各种离线、搜索、实时查询引擎，如Drill、Hive、Kylin、Solr、flink、Samza等。本文结合hive中基于代价的优化，解析calcite优化引擎的实现原理。

大数据真好玩

2020-06-07

2.2K0

以后千万别面试卡壳 | Hive调优的12种方式

mapreduce jvm hive 大数据

distinct会将b列所有的数据保存到内存中，形成一个类似hash的结构，速度是十分的块；但是在大数据背景下，因为b列所有的值都会形成以key值，极有可能发生OOM

大数据真好玩

2020-02-11

9150

这个面试问题很难么 | 如何处理大数据中的数据倾斜

spark linux mapreduce hadoop 大数据

数据倾斜是我们在处理大数据量问题时绕不过去的问题，也是在面试中几乎必问的考点。正常的数据分布理论上都是倾斜的，就是我们所说的'二八原理'：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。

大数据真好玩

2019-12-03

8010

Spark shuffle读操作

spark vr 视频解决方案大数据 java mapreduce

1. shuffle过程的数据是如何传输过来的，是按文件来传输，还是只传输该reduce对应在文件中的那部分数据？

大数据真好玩

2019-08-27

8130

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态