首页
学习
活动
专区
工具
TVP
发布

数仓建模

专栏成员
11
文章
12749
阅读量
15
订阅数
OLAP引擎
一、OALP 引擎汇总整理引擎优势不足适合场景文档Kylin1、支持标准SQL,提供JDBC/ODBC接口2、通过预计算Cube显著降低查询时的计算量。3、支持精确去重计数,并且由于预计算,查询去重指标的速度很快。4、可以支持比较高的查询并发。1、需大量资源做预计算,数据导入效率低。2、schema变更需重跑历史,稳定性低。3、需要学习Cube定义和优化,学习成本较高。4、不支持AdHoc查询。5、HBase没有二级索引,过滤的性能稍逊色。5、支持的维度数量不宜过多(20),否则Cube的计算和存储开销会明
艾利
2022-09-08
7470
数仓问题思考
1.2、针对业务调整频繁的场景,比如维度信息经常发生变动,如何减少数据链路的调整成本(如逻辑调整、数据回刷)?
艾利
2022-09-05
4080
Spark UI (6) - SQL页面
SQL页面展示了作业执行Spark SQL的情况, 它会按SQL层面展示一条SQL在Spark中如何解析并执行的。
艾利
2022-09-05
9880
Spark UI (3、4、5) - Storage、Environment、Executors页面
Storage页面展示的是作业在执行过程中缓存(cache)的数据信息, 包含cache rdd的大小和分布节点.
艾利
2022-09-02
9880
Spark UI (2) - Stages页面
Stages页面会显示作业所有的stage信息, 不区分stage属于哪个job. 如图:
艾利
2022-09-01
1.3K0
Spark UI (1) - Jobs页面
在Jobs页面可以看到上面的SQL生成了3个job, 该页面还有一个Event Timeline的链接, 点击可以看到作业的时间轴。
艾利
2022-08-31
1.4K0
Spark UI基本介绍
Spark UI是反映一个Spark作业执行情况的web页面, 用户可以通过Spark UI观察Spark作业的执行状态, 分析可能存在的问题.。本文会介绍Spark UI的相关内容和常用的分析方法, 帮助大家更快看懂Spark究竟是如何执行代码以及通过Spark UI定位常见的作业问题.
艾利
2022-08-31
1.1K0
【专题】spark/MR 数据倾斜优化
原理:在进行shuffle的时候,须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话,就会发生数据倾斜。比如大部分key对应10条数据,但是个别key却对应了100万条数据,那么大部分task可能就只会分配到10条数据,然后1秒钟就运行完了;但是个别task可能分配到了100万数据,要运行一两个小时。因此,整个Spark作业的运行进度是由运行时间最长的那个task决定的。
艾利
2022-08-30
1.8K0
5W2H分析方法
5W2H分析法也叫七何分析法,可以简单理解为一种在工作、生活、学习等过程中会广泛应用到的思考、思维方式。可指导我们更加全面的考虑问题并高效解决问题,是一种简单、方便易于理解的思维方式。
艾利
2022-08-26
1.9K0
kafka学习
Apache Kafka是由LinkedIn采用Scala和Java开发的开源流处理(open source、 stream-processing)平台,该项目旨在提供统一的、高吞吐量、低延迟的平台来处理实时数据流。
艾利
2022-08-16
3570
数仓建模理论(一)
本文介绍数据建模的基础方法论,并通过建模实例的建模实践,输出对模型结构、设计模式的经验技巧与自我理解。
艾利
2022-08-16
1.9K0
没有更多了
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档