首页
学习
活动
专区
工具
TVP
发布

大数据技术架构

纯大数据技术分享,HBase/Kafka/Flink等技术栈,原理与实践,源码分析等。欢迎订阅公众号:大数据技术架构
专栏成员
149
文章
352005
阅读量
96
订阅数
Iceberg 实践 | B 站通过数据组织加速大规模数据分析
交互式分析是大数据分析的一个重要方向,基于TB甚至PB量级的数据数据为用户提供秒级甚至亚秒级的交互式分析体验,能够大大提升数据分析人员的工作效率和使用体验。限于机器的物理资源限制,对于超大规模的数据的全表扫描以及全表计算自然无法实现交互式的响应,但是在大数据分析的典型场景中,多维分析一般都会带有过滤条件,对于这种类型的查询,尤其是在高基数字段上的过滤查询,理论上可以在读取数据的时候跳过所有不相关的数据,只读取极少部分需要的数据,这种技术一般称为Data Clustering以及Data Skipping。Data Clustering是指数据按照读取时的IO粒度紧密聚集,而Data Skipping则根据过滤条件在读取时跳过不相干的数据,Data Clustering的方式以及查询中的过滤条件共同决定了Data Skipping的效果,从而影响查询的响应时间,对于TB甚至PB级别的数据,如何通过Data Clustering以及Data Skipping技术高效的跳过所有逻辑上不需要的数据,是能否实现交互式分析的体验的关键因素之一。
大数据技术架构
2021-03-23
2.2K0
AWS的湖仓一体使用哪种数据湖格式进行衔接?
此前Apache Hudi社区一直有小伙伴询问能否使用Amazon Redshift(数仓)查询Hudi表,现在它终于来了。
大数据技术架构
2020-10-10
1.9K0
关于OLAP数仓,这大概是史上最全面的总结!(万字干货)
关于数据仓库,早期分享过不少基础类文章,偶然间看到知乎上这篇关于OLAP的深度解读,从技术发展,产品选型,执行优化等方面做了详细的剖析,分享来给大家看看!
大数据技术架构
2020-07-02
6K0
Kylin 新定位:分析型数据仓库
Apache Kylin 在 2014 年 10 月开源并加入 Apache 软件基金会的孵化器,一年后从孵化器毕业成为 Apache 顶级项目。从第一天起,Kylin 的标语是「Extreme OLAP Engine for Big Data」。五年来,Kylin 已经成为了大数据版图中一个不可或缺的角色,帮助了全球上千家企业进行高效的大数据分析。
大数据技术架构
2020-04-07
8310
Elasticsearch 节点关闭流程分析
当为 es 集群更新配置,升级版本时,需要滚动升级:关闭数据平衡,依次 kill 节点。但是 kill 一个节点的操作是否安全?如果此时节点有正在执行的读写操作会有什么影响,如果节点是 master 是如何处理的?关闭流程是怎么实现的?kill 节点都会带来哪些风险?
大数据技术架构
2019-08-16
1K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档