数仓建模

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

分析师于日常数据分析及图表制作工作当中，时常会遇到一些离群值和异常值，其数值显著偏离所属样本的其余观测值，可能不具备参考价值，同时可能致使整体数据呈现偏高或偏低之状，难以精确剖析出普遍规律。

大厂面试SQL题(二)——去除最大最小值求均值（字节)

在日常工作进程中，分析师会经常剖析用户对于公司产品的粘性及留存状况，对应至数据指标层面，常见的有“连续 xx 天登陆用户数”、“7 天/30 天留存用户数”等。正因如此，这类题目在数据面试中属于较为常见的用户类 SQL 题目。接下来，让我们一同来看下这类题目的常见 SQL 解法：

大厂面试SQL题(一) ——连续登陆（字节）

hive大表rename异常如何处理？

一、OALP 引擎汇总整理引擎优势不足适合场景文档Kylin1、支持标准SQL，提供JDBC/ODBC接口2、通过预计算Cube显著降低查询时的计算量。3、支持精确去重计数，并且由于预计算，查询去重指标的速度很快。4、可以支持比较高的查询并发。1、需大量资源做预计算，数据导入效率低。2、schema变更需重跑历史，稳定性低。3、需要学习Cube定义和优化，学习成本较高。4、不支持AdHoc查询。5、HBase没有二级索引，过滤的性能稍逊色。5、支持的维度数量不宜过多（20），否则Cube的计算和存储开销会明

OLAP引擎

1.2、针对业务调整频繁的场景，比如维度信息经常发生变动，如何减少数据链路的调整成本(如逻辑调整、数据回刷)？

数仓问题思考

SQL页面展示了作业执行Spark SQL的情况, 它会按SQL层面展示一条SQL在Spark中如何解析并执行的。

Spark UI (6) - SQL页面

Storage页面展示的是作业在执行过程中缓存(cache)的数据信息, 包含cache rdd的大小和分布节点.

Spark UI (3、4、5) - Storage、Environment、Executors页面

Stages页面会显示作业所有的stage信息, 不区分stage属于哪个job. 如图:

Spark UI (2) - Stages页面

在Jobs页面可以看到上面的SQL生成了3个job, 该页面还有一个Event Timeline的链接, 点击可以看到作业的时间轴。

Spark UI (1) - Jobs页面

Spark UI是反映一个Spark作业执行情况的web页面, 用户可以通过Spark UI观察Spark作业的执行状态, 分析可能存在的问题.。本文会介绍Spark UI的相关内容和常用的分析方法, 帮助大家更快看懂Spark究竟是如何执行代码以及通过Spark UI定位常见的作业问题.

Spark UI基本介绍

原理：在进行shuffle的时候，须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。比如大部分key对应10条数据，但是个别key却对应了100万条数据，那么大部分task可能就只会分配到10条数据，然后1秒钟就运行完了；但是个别task可能分配到了100万数据，要运行一两个小时。因此，整个Spark作业的运行进度是由运行时间最长的那个task决定的。

【专题】spark/MR 数据倾斜优化

Apache Kafka是由LinkedIn采用Scala和Java开发的开源流处理（open source、 stream-processing）平台，该项目旨在提供统一的、高吞吐量、低延迟的平台来处理实时数据流。

kafka学习

本文介绍数据建模的基础方法论，并通过建模实例的建模实践，输出对模型结构、设计模式的经验技巧与自我理解。

数仓建模理论（一）

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了数仓建模专栏，为你提供了数仓建模的相关文章，致力于帮助开发者快速成长与发展。

数仓建模

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐