大数据技术架构

纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
137 篇文章
111.6K 次阅读
71 人订阅

全部文章

大数据技术架构

Hive调优 | HiveServer2 性能优化与GC优化

开发者利用jdbc连接hiveserver2(或者利用jdbc连接 spark HiveThriftServer2,由于两者都是提供jdbc连接到hive,因此...

5920
大数据技术架构

Spark调优 | Spark OOM问题常见解决方式

Spark常见的问题不外乎OOM。我们首先看一下Spark 的内存模型:Spark在一个Executor中的内存分为三块,一块是execution内存,一块是s...

3830
大数据技术架构

Kafka 3.0 重磅发布,有哪些值得关注的特性?

Apache Kafka 是一个分布式开源流平台,被广泛应用于各大互联网公司。Kafka 设计之初被用于消息队列,自 2011 年由 LinkedIn 开源以来...

10110
大数据技术架构

干货 | 再来聊一聊 Parquet 列式存储格式

Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵...

12740
大数据技术架构

Spark性能调优指北:性能优化和故障处理

Spark 官方推荐,Task 数量应该设置为 Spark 作业总 CPU core 数量的 2~3 倍。

13160
大数据技术架构

Flink社区 | Flink CDC 2.0 正式发布,核心改进详解

摘要:本文由社区志愿者陈政羽整理,内容来源自阿里巴巴高级开发工程师徐榜江 (雪尽) 7 月 10 日在北京站 Flink Meetup 分享的《详解 Flink...

41231
大数据技术架构

HBase原理 | HBase RegionServer宕机数据恢复

HBase采用类LSM的架构体系,数据写入并没有直接写入数据文件,而是会先写入缓存(Memstore),在满足一定条件下缓存数据再会异步刷新到硬盘。为了防止数据...

19730
大数据技术架构

数据湖|Flink + Iceberg 全场景实时数仓的建设实践

摘要:Apache Flink 是目前大数据领域非常流行的流批统一的计算引擎,数据湖是顺应云时代发展潮流的新型技术架构,以 Iceberg、Hudi、Delta...

26840
大数据技术架构

盘点Hadoop生态中 6 个核心的大数据组件

大数据生态圈中有很多优秀的组件,可谓琳琅满目,按组件类别可分为存储引擎、计算引擎,消息引擎,搜索引擎等;按应用场景可分为在线分析处理OLAP型,在线事务处理OL...

19520
大数据技术架构

Spark 闭包(Task not serializable)问题分析及解决

在编写Spark程序中,由于在map等算子内部使用了外部定义的变量和函数,从而引发Task未序列化问题。然而,Spark算子在计算过程中使用外部变量在许多情形下...

21430
大数据技术架构

史上第二全面的HBase读写性能优化总结

如果数据吞吐量较大,且一次查询返回的数据量较大,则Rowkey 必须进行散列化处理,同时建表必须进行预分区处理。对于以get为主的查询场景,则将表进行hash预...

22520
大数据技术架构

Flink + Iceberg 在去哪儿的实时数仓实践

摘要:本文介绍去哪儿数据平台在使用 Flink + Iceberg 0.11 的一些实践。内容包括:

16820
大数据技术架构

数据湖实践 | Iceberg 在网易云音乐的实践

本文将从另一个角度为大家介绍 iceberg(结合之前推送的Iceberg快速入门,可以更深入的理解),然后分享 iceberg 在网易云音乐的一些实践,希望对...

20420
大数据技术架构

ClickHouse原理 | ClickHouse特性及底层存储原理

ClickHouse是一款MPP架构的列式存储数据库,但MPP和列式存储并不是什么"稀罕"的设计。拥有类似架构的其他数据库产品也有很多,但是为什么偏偏只有Cli...

22310
大数据技术架构

SparkListener监听机制使用及自定义事件处理

Spark 提供了一系列整个任务生命周期中各个阶段变化的事件监听机制,通过这一机制可以在任务的各个阶段做一些自定义的各种动作。SparkListener便是这些...

19440
大数据技术架构

Hudi实践 | Apache Hudi在Hopsworks机器学习的应用

Hopsworks特征存储库统一了在线和批处理应用程序的特征访问而屏蔽了双数据库系统的复杂性。我们构建了一个可靠且高性能的服务,以将特征物化到在线特征存储库,不...

15610
大数据技术架构

Flink + Iceberg 如何解决数据入湖面临的挑战

本文来自4月17日 Apache Flink x Iceberg Meetup 上海站胡争老师的分享,文末有视频回顾和PPT资源下载~

18130
大数据技术架构

元数据管理 | Hive 元数据迁移与合并

在网易集团内部有大大小小几百套 hive 集群,为了满足网易猛犸大数据平台的元数据统一管理的需求,我们需要将多个分别独立的 hive 集群的元数据信息进行合并,...

35830
大数据技术架构

不再需要ZooKeeper,Kafka 2.8将独立运行!

分布式发布与订阅系统Apache Kafka在即将发布的2.8版本,使用Kafka内部的Quorum控制器来取代ZooKeeper,因此用户第一次可在完全不需要...

30020
大数据技术架构

Spark原理 | 关于 mapPartitions 的误区

今天 Review 了一下同事的代码,发现其代码中有非常多的 mapPartitions,问其原因,他说性能比 map 更好。我说为什么性能好呢?于是就有了这篇...

38430

扫码关注云+社区

领取腾讯云代金券