数据仓库开发

数据仓库践行者

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

元旦前一周到现在总共接到9个sparksql相关的优化咨询，这些案例中，有4个和count(distinct)有关。

再来说说sparksql中count(distinct)原理和优化手段吧~

额，我觉得我特别擅长从细节处思考，主要也是因为我接触到的事情确确实实都是特别具体的、需要立刻去解决的、特别个性化、特别的贴合业务的事情。

关于数仓监控体系优化的实践

这周真的是忙出天际，趁这会儿下班，赶紧补补文档，之前有说要整整血缘这块儿，源码都看好了，但没有展示的地方。

Atlas自动感知hivesql及sparksql血缘实践

前天晚上，被拉群，给了一批慢任务，严重影响体验，任务运行时长如下图，有的任务跑了一天，还没跑完，该怎么着手优化呢？

再来一个诊断SparkSql慢任务的案例吧

几乎每天都会被源码社群的同学问各种sql的优化问题（有在群里问的，有私聊的），有的同学描述问题比较清晰，再加上需要优化的sql的业务逻辑不是特别复杂，所以，我能很快定位问题，并协助解决；但有的同学就没那么幸运，业务逻辑复杂，也没办法描述的更细致，真正的优化可能还需要去深入了解业务逻辑，所以，最终还是得靠自己去解决问题。

解决问题的思路：重视原理

只能说，以后大家看到一个看似没用的条件的时候，千万不要随便删除，这个条件很有可能起到了优化的大作用。

sparksql优化的奇技淫巧（一次惊掉下巴的优化）

我们现在的数据动不动就上百亿，字段动不动就是巨大的json 串，到处是疑难杂症，所以，每天就是拼命的研究这些原理，寻找优化的方法。

窗口函数为什么更容易出现性能问题？——一个优化案例

如果这样理解的话，就会很矛盾，笛卡尔积的依赖中，一个父RDD的分区明明被多个子RDD的分区消费了，可它是窄依赖


额，关于笛卡尔积CartesianProduct

火山模型（迭代器模型）， 是1994年 Goetz Graefe 在他的论文 《Volcano, An Extensible and Parallel Query Evaluation System》中提出的概念。

SparkSql全代码生成规则梳理-CollapseCodegenStages

sparksql中有一些容易混淆的概念，大家在面试时也会经常被问到join和shuffle相关的问题：

SparkSql中join和shuffle知识点梳理

WindowExpression ：描述该expression是一个windowExpression，继承BinaryLike，是一个二元树。

SparkSql窗口函数源码分析（第一部分）

这篇搭一下flink1.15的源码环境，看一下flink-table代码的结构，后面每周看一些代码，把flinksql玩好。

FlinkSql源码调试环境&flink-table代码结构

这种情况也是我经常会遇到的一个场景，之前也有同学拿着sql来问，说这样写会不会影响运行效率：

SparkSql不同写法的一些坑(性能优化)

sparksql生成解析后的逻辑执行计划时，会通过catalog把各个字段和元数据库绑定，也就说在ResolveLogical的阶段的字段是带了id的：

SparkSql序列化时列的ID是在哪里生成的呢？

最近业务侧花样提需求，里面涉及到了各种数组的切片、合并、去重、拼接、压平等操作，本来以为需要自己开发很多udf才可以，后来扒了一下源码，发现这些用法sparksql已经帮我们实现了呀~~  

SparkSql数组操作的N种骚气用法

写一篇水水的技术文，总结一下sparksql中不同stage的并行执行相关，也是来自于一位群友的提问：

SparkSql中多个Stage的并发执行

之前总是喜欢去找自己的缺点，然而随着对互联网的认知越来越深入，逐渐发现，最应该做的是让自己的优势更明显，而不是总想着去补短板。

我的优势是什么？

快来加入我的源码学习社群吧，在社群的长期陪伴下，解决你在学习路上遇到的点点滴滴的问题~~

SparkSql源码成神之路

这篇文章主要介绍sparksql中Partitioning的源码体系，和上篇 sparksql源码系列 | 一文搞懂Distribution源码体系(spark3.2)一样， Partitioning也是我们理解Physical Plan、executed Plan、shuffle、SparkSQL的AQE机制等的一个比较基础的知识点。

sparksql源码系列 | 一文搞懂Partitioning源码体系(spark3.2)

这篇文章主要介绍sparksql中Distribution的源码体系，Distribution是我们理解Physical Plan、executed Plan、shuffle、SparkSQL的AQE机制等的一个比较基础的知识点。

sparksql源码系列 | 一文搞懂Distribution源码体系(spark3.2)

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了数据仓库践行者专栏，为你提供了数据仓库践行者的相关文章，致力于帮助开发者快速成长与发展。

数据仓库践行者

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐