首页
学习
活动
专区
工具
TVP
发布

大数据技术架构

纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
专栏作者
149
文章
312421
阅读量
95
订阅数
Spark调优 | Spark OOM问题常见解决方式
Spark常见的问题不外乎OOM。我们首先看一下Spark 的内存模型:Spark在一个Executor中的内存分为三块,一块是execution内存,一块是storage内存,一块是other内存。
大数据技术架构
2021-11-23
1.6K0
Spark性能调优指北:性能优化和故障处理
Spark 官方推荐,Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。
大数据技术架构
2021-08-25
8380
蚂蚁绊倒大象?不起眼的小文件竟拖了Hadoop大佬的后腿
在使用Hadoop过程中,小文件是一种比较常见的挑战,如果不小心处理,可能会带来一系列的问题。HDFS是为了存储和处理大数据集(M以上)而开发的,大量小文件会导致Namenode内存利用率和RPC调用效率低下,block扫描吞吐量下降,应用层性能降低。通过本文,我们将定义小文件存储的问题,并探讨如何对小文件进行治理。
大数据技术架构
2021-03-05
1.4K1
Spark速度比MapReduce快,不仅是内存计算
作为Hadoop的分布式计算框架,MapReduce扮演着分布式计算的任务,适用于离线批计算任务。Spark本身不具备存储数据功能,通常基于HDFS。我们经常会在各类文章中看到类似这样的描述:Spark是基于内存计算的,其速度远快于Hadoop的MapReduce。本文旨在讨论这一结论背后的原因。
大数据技术架构
2020-05-29
1.8K0
Hive 调优,先掌握这几种优化模式
Hive和MapReduce中拥有较多在特定情况下优化的特性,如何利用好相关特性,是Hive性能调优的关键。本文就介绍那些耳熟但不能详的几种Hive优化模式。
大数据技术架构
2020-03-25
4530
Hadoop、Spark、Kafka面试题及答案整理
一个Kafka的Message由一个固定长度的header和一个变长的消息体body组成。
大数据技术架构
2019-08-16
1.1K0
Spark Shuffle的技术演进
本文原文 http://www.leonlu.cc/profession/19-spark-shuffle ,作者 LeonLu
大数据技术架构
2019-08-16
9110
没有更多了
社区活动
Python精品学习库
代码在线跑,知识轻松学
【玩转EdgeOne】征文进行中
限时免费体验,发文即有奖~
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档