大数据技术架构

纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
114 篇文章
46 人订阅

全部文章

大数据技术架构

AWS的湖仓一体使用哪种数据湖格式进行衔接?

此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift(数仓)查询Hudi表,现在它终于来了。

6830
大数据技术架构

关于ElasticSearch性能调优几件必须知道的事

ElasticSearch是现在技术前沿的大数据引擎,常见的组合有ES+Logstash+Kibana作为一套成熟的日志系统,其中Logstash是ETL工具,...

12020
大数据技术架构

专治数仓疑难杂症!美团点评 Flink 实时数仓应用经验分享

摘要:本文根据 Apache Flink 系列直播整理而成,由美团点评数据系统研发工程师黄伟伦老师分享。主要内容如下:

16110
大数据技术架构

关于OLAP数仓,这大概是史上最全面的总结!(万字干货)

关于数据仓库,早期分享过不少基础类文章,偶然间看到知乎上这篇关于OLAP的深度解读,从技术发展,产品选型,执行优化等方面做了详细的剖析,分享来给大家看看!

32810
大数据技术架构

使用Apache Hudi构建大规模、事务性数据湖

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk

16010
大数据技术架构

HBase运维 | HBase宕机恢复案例一则

从上图可以看到zk中/Hbase/replication/rs的节点信息无法获取,然后我们立马去检查zk日志发现zk已经全部断联而且已经瘫痪,截图如下:

13800
大数据技术架构

Kafka 面试真题及答案,建议收藏

Kafka可以说是必知必会的了,首先面试大数据岗位的时候必问kafka,甚至现在java开发岗位也会问到kafka一些消息队列相关的知识点。先来看看有哪些最新的...

27160
大数据技术架构

初识ClickHouse:来自战斗民族的OLAP利器

ClickHouse是一个用于数据分析(OLAP)的列式数据库管理系统(column-oriented DBMS),诞生于“战斗民族”俄罗斯,由搜索巨头Yand...

21210
大数据技术架构

Spark速度比MapReduce快,不仅是内存计算

作为Hadoop的分布式计算框架,MapReduce扮演着分布式计算的任务,适用于离线批计算任务。Spark本身不具备存储数据功能,通常基于HDFS。我们经常会...

18720
大数据技术架构

干货 | Kafka 内核知识梳理,附思维导图

前面我们已经分享过几篇Kafka的文章,最近简单梳理了下Kafka内核相关的知识,涵盖了Kafka架构总结,副本机制,控制器,高水位机制,日志或消息存储,消息发...

19330
大数据技术架构

HBase原理 | HBase Compaction介绍与参数调优

我们知道,数据达到HBase服务端会写WAL-写Memstore,然后定期或满足一定条件时刷写磁盘生成一个HFile文件,随着时间推移生成的HFile会越来越多...

17720
大数据技术架构

Hudi原理 | Apache Hudi 典型应用场景介绍

将数据从外部源如事件日志、数据库提取到Hadoop数据湖中是一个很常见的问题。在大多数Hadoop部署中,一般使用混合提取工具并以零散的方式解决该问题,尽管这些...

20360
大数据技术架构

HBase实践 | 使用 Docker 快速上手 HBase

前言:本文主要讲述了如何使用Docker快速上手HBase,省去繁杂的安装部署环境,直接上手,小白必备。适合HBase入门学习及简单代码测试。

29840
大数据技术架构

再来聊一聊 Parquet 列式存储格式

Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵...

22111
大数据技术架构

Redis 6.0 稳定版发布,正式支持多线程

近期Redis 6.0.0稳定版发布了,是Redis有史以来最大的版本, Redis的作者在博客中介绍了该版本中的新特性,此外除了这些新特性外,Redis 6也...

18340
大数据技术架构

HBase实践 | HBase IO优化与高可用建设

在CAP能力模型表现方面,hbase主要是面向CP的应用系统,针对数据写入可以满足强一致性需求,从客户端视角来看写入成功之后的数据是即时可见的。然而hbase的...

19730
大数据技术架构

Kafka是如何利用零拷贝提高性能的

Kafka 在执行消息的写入和读取这么快的原因,其中的一个原因是零拷贝(Zero-copy)技术,下面我们来了解一下这么高效的原因。

21320
大数据技术架构

HBase最佳实践 | 合理的Region数量与大小

通常较少的region数量可使群集运行的更加平稳,官方指出每个RegionServer大约100个regions的时候效果最好,理由如下:

20710
大数据技术架构

Kafka精进 | Producer端核心参数及调优建议

在前面文章《Kafka精进 | 一文读懂Producer消息发送机制》中,我们从Kafka消息结构、序列化器、分区器及消息缓冲池等方面介绍了Producer端的...

16230
大数据技术架构

HBase原理 | HBase内存管理之MemStore进化论

Java工程中内存管理总是一个绕不过去的知识模块,无论HBase、Flink还是Spark等,如果使用的JVM堆比较大同时对读写延迟等性能有较高要求,一般都会选...

21610

扫码关注云+社区

领取腾讯云代金券