腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏作者

635

文章

1280092

阅读量

316

订阅数

Hive计算引擎大PK，万字长文解析MapRuce、Tez、Spark三大引擎

linux spark hive sql mapreduce

Hive从2008年始于FaceBook工程师之手，经过10几年的发展至今保持强大的生命力。截止目前Hive已经更新至3.1.x版本，Hive从最开始的为人诟病的速度慢迅速发展，开始支持更多的计算引擎，计算速度大大提升。

王知无-import_bigdata

2021-10-27

2.9K0

大数据之Hadoop企业级生产调优手册(下)

大数据存储 xml hadoop mapreduce

注：演示纠删码和异构存储需要一共 5台虚拟机。尽量拿另外一套集群。提前准备 5台服务器的集群。

王知无-import_bigdata

2021-10-13

5290

他来了他来了，Hadoop序列化和切片机制了解一下？

mapreduce 文件存储腾讯云测试服务

一个超大文件在HDFS上存储时，是以多个Block存储在不同的节点上，比如一个512M的文件，HDFS默认一个Block为128M，那么1G的文件分成4个Block存储在集群中4个节点上。

王知无-import_bigdata

2021-09-22

6120

当我们在学习Hive的时候在学习什么？「硬刚Hive续集」

mapreduce spark hive ide sql

我在之前的硬刚系列《大数据方向另一个十年开启 |《硬刚系列》第一版完结》中写过一个《硬刚Hive | 4万字基础调优面试小总结》，这个小结里基本涵盖了你所看过的关于Hive的常见的知识和面试八股文。

王知无-import_bigdata

2021-07-30

6350

Spark Job 逻辑执行图和数据依赖解析

css mapreduce spark

了解了 Job 的逻辑执行图后，写程序时候会在脑中形成类似上面的数据依赖图。然而，实际生成的 RDD 个数往往比我们想想的个数多。

王知无-import_bigdata

2021-04-21

7300

Hive常用参数调优十二板斧

mapreduce linux 编程算法大数据 hive

hive.limit.optimize.enable=true --- 开启对数据源进行采样的功能 hive.limit.row.max.size --- 设置最小的采样容量 hive.limit.optimize.limit.file --- 设置最大的采样样本数

王知无-import_bigdata

2020-12-08

2K0

Hive性能调优 | 并行执行/严格模式/JVM重用/推测执行

jvm hadoop hive mapreduce xml

通过设置属性hive.mapred.mode值为默认是非严格模式nonstrict 。开启严格模式需要修改hive.mapred.mode值为strict，开启严格模式可以禁止3种类型的查询。

王知无-import_bigdata

2020-11-06

7180

Hive性能调优 | 数据倾斜

mapreduce hadoop 大数据 linux

当input的文件都很大，任务逻辑复杂，map执行非常慢的时候，可以考虑增加Map数，来使得每个map处理的数据量减少，从而提高任务的执行效率。针对上面的第4条假设有这样一个任务：

王知无-import_bigdata

2020-11-06

7280

Hive性能调优 | Fetch抓取

linux hive mapreduce 大数据

我们在刚开始学习hive的时候,都知道hive可以降低程序员的学习成本和开发成本,具体表现就在于可以将SQL语句转换成MapReduce程序运行。

王知无-import_bigdata

2020-11-06

5220

HBase操作组件：Hive、Phoenix、Lealone

mapreduce hive jdbc api 性能测试

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据仓库的统计分析。

王知无-import_bigdata

2020-07-21

1.6K0

SparkSQL的自适应执行-Adaptive Execution

sql spark mapreduce https 网络安全

Adaptive Execution 将可以根据执行过程中的中间数据优化后续执行，从而提高整体执行效率。核心在于两点

王知无-import_bigdata

2020-07-03

1.5K0

MapReduce性能优化大纲

文件存储 mapreduce 大数据 hadoop

检测系统瓶颈性能调优创建一项基线，用来评估系统的首次运行性能（即集群默认配置）分析Hadoop计数器，修改，调整配置，并重新执行任务，与基线进行比较重复执行第2步，直到最高效率识别资源瓶颈内存瓶颈当发现节点频繁出现虚拟内存交换时表示出现了内存瓶颈 CPU瓶颈通常情况下，处理器负载超过90%，在多处理器系统上整体负载超过50% 判断是否是单个特定线程独占了CPU IO瓶颈磁盘持续活动率超过85%（也有可能是由CPU或内存导致）网络带宽瓶颈在输出结果或shuffle阶段从map拉取数据时

王知无-import_bigdata

2020-06-01

1K0

Spark性能优化总结

spark python 缓存 linux mapreduce

Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张，CPU，网络带宽，内存。通过都会将数据序列化，降低其内存memory和网络带宽shuffle的消耗。

王知无-import_bigdata

2020-04-02

1.2K0

数据算法之反转排序 | 寻找相邻单词的数量

spark scala sql mapreduce

想处理的问题是：统计一个单词相邻前后两位的数量，如有w1,w2,w3,w4,w5,w6,则：

王知无-import_bigdata

2020-02-10

4520

这个面试问题很难么 | 如何处理大数据中的数据倾斜

spark linux mapreduce hadoop 大数据

数据倾斜是我们在处理大数据量问题时绕不过去的问题，也是在面试中几乎必问的考点。正常的数据分布理论上都是倾斜的，就是我们所说的'二八原理'：80%的财富集中在20%的人手中, 80%的用户只使用20%的功能 , 20%的用户贡献了80%的访问量。简单来说数据倾斜就是数据的key 的分化严重不均，造成一部分数据很多，一部分数据很少的局面。

王知无-import_bigdata

2019-11-18

1.1K0

面试系列：十个海量数据处理方法大总结

mapreduce 数据库大数据 sql 存储

本文将简单总结下一些处理海量数据问题的常见方法。当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎讨论。

王知无-import_bigdata

2019-07-09

1.3K0

Hive/HiveSQL常用优化方法全面总结

hive mapreduce sql javascript

Hive作为大数据领域常用的数据仓库组件，在平时设计和查询时要特别注意效率。影响Hive效率的几乎从不是数据量过大，而是数据倾斜、数据冗余、job或I/O过多、MapReduce分配不合理等等。对Hive的调优既包含对HiveSQL语句本身的优化，也包含Hive配置项和MR方面的调整。

王知无-import_bigdata

2019-07-01

22.3K0

HBase和Hive的区别和各自适用的场景

hive hadoop hbase mapreduce TDSQL MySQL 版

先放结论：Hbase和Hive在大数据架构中处在不同位置，Hbase主要解决实时数据查询问题，Hive主要解决数据处理和计算问题，一般是配合使用。

王知无-import_bigdata

2019-05-13

7.4K1

面试必备技能-HiveSQL优化

hive mapreduce 大数据文件存储

Hive SQL基本上适用大数据领域离线数据处理的大部分场景。Hive SQL的优化也是我们必须掌握的技能，而且，面试一定会问。那么，我希望面试者能答出其中的80%优化点，在这个问题上才算过关。

王知无-import_bigdata

2019-05-09

1.3K0

Hadoop极简入门

hadoop mapreduce node.js 分布式存储

其实Hadoop诞生至今已经十多年了，网络上也充斥着关于Hadoop相关知识的的海量资源。但是，有时还是会使刚刚接触大数据领域的童鞋分不清hadoop、hdfs、Yarn和MapReduce等等技术词汇。

王知无-import_bigdata

2019-04-24

7140

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态