首页
学习
活动
专区
工具
TVP
发布

大数据技术架构

纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
专栏作者
149
文章
318096
阅读量
95
订阅数
DevOps 已死?不重要!平台工程才是未来
最近, Scott Carey 发表了一篇调查文章,喊出了一些开发者的心声:“扯淡的 DevOps,我们开发者根本不想做运维!”除此之外,软件工程师兼 DevOps 评论员 Sid Palas 也在推特上写道,“DevOps 已死,平台工程才是未来。”
大数据技术架构
2022-12-01
5080
Flink + Iceberg 如何解决数据入湖面临的挑战
本文来自4月17日 Apache Flink x Iceberg Meetup 上海站胡争老师的分享,文末有视频回顾和PPT资源下载~
大数据技术架构
2021-04-29
6220
不再需要ZooKeeper,Kafka 2.8将独立运行!
分布式发布与订阅系统Apache Kafka在即将发布的2.8版本,使用Kafka内部的Quorum控制器来取代ZooKeeper,因此用户第一次可在完全不需要ZooKeeper的情况下执行Kafka,这不只节省运算资源,并且也使得Kafka效能更好,还可支持规模更大的集群。
大数据技术架构
2021-04-13
5680
Iceberg 实践 | B 站通过数据组织加速大规模数据分析
交互式分析是大数据分析的一个重要方向,基于TB甚至PB量级的数据数据为用户提供秒级甚至亚秒级的交互式分析体验,能够大大提升数据分析人员的工作效率和使用体验。限于机器的物理资源限制,对于超大规模的数据的全表扫描以及全表计算自然无法实现交互式的响应,但是在大数据分析的典型场景中,多维分析一般都会带有过滤条件,对于这种类型的查询,尤其是在高基数字段上的过滤查询,理论上可以在读取数据的时候跳过所有不相关的数据,只读取极少部分需要的数据,这种技术一般称为Data Clustering以及Data Skipping。Data Clustering是指数据按照读取时的IO粒度紧密聚集,而Data Skipping则根据过滤条件在读取时跳过不相干的数据,Data Clustering的方式以及查询中的过滤条件共同决定了Data Skipping的效果,从而影响查询的响应时间,对于TB甚至PB级别的数据,如何通过Data Clustering以及Data Skipping技术高效的跳过所有逻辑上不需要的数据,是能否实现交互式分析的体验的关键因素之一。
大数据技术架构
2021-03-23
2.1K0
初识ClickHouse:来自战斗民族的OLAP利器
ClickHouse是一个用于数据分析(OLAP)的列式数据库管理系统(column-oriented DBMS),诞生于“战斗民族”俄罗斯,由搜索巨头Yandex公司开源。目前国内不少大厂在使用,包括腾讯、今日头条、携程、快手等,集群规模多达数千节点,阿里云更是推出了云产品ClickHouse。官方介绍:
大数据技术架构
2020-06-04
2.1K0
再来聊一聊 Parquet 列式存储格式
Parquet 是 Hadoop 生态圈中主流的列式存储格式,最早是由 Twitter 和 Cloudera 合作开发,2015 年 5 月从 Apache 孵化器里毕业成为 Apache 顶级项目。
大数据技术架构
2020-05-21
10.4K0
一文彻底搞懂 CMS GC 参数配置
近期整理多个 HBase 集群的 JVM 参数,发现都是默认的 CMS GC 配置,如何调优 JVM 参数就成了一个绕不过的话题。因此,为了寻求一个 CMS GC 的 JVM 合理参数配置,笔者参考多篇社区文章及相关博客,总结了一些 CMS 相关的知识点,以及一套基于 CMS 的 JVM 参数配置。
大数据技术架构
2019-11-28
3.9K0
Kafka 的 20 项最佳优化实践
本文整理于网络翻译,英文原文:https://blog.newrelic.com/engineering/kafka-best-practices/
大数据技术架构
2019-08-16
1.7K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档