首页
学习
活动
专区
工具
TVP
发布

数据仓库践行者

专栏作者
92
文章
123998
阅读量
29
订阅数
再来说说sparksql中count(distinct)原理和优化手段吧~
元旦前一周到现在总共接到9个sparksql相关的优化咨询,这些案例中,有4个和count(distinct)有关。
数据仓库践行者
2024-01-16
5160
关于数仓监控体系优化的实践
额,我觉得我特别擅长从细节处思考,主要也是因为我接触到的事情确确实实都是特别具体的、需要立刻去解决的、特别个性化、特别的贴合业务的事情。
数据仓库践行者
2023-11-20
1510
Atlas自动感知hivesql及sparksql血缘实践
这周真的是忙出天际,趁这会儿下班,赶紧补补文档,之前有说要整整血缘这块儿,源码都看好了,但没有展示的地方。
数据仓库践行者
2023-11-07
6040
再来一个诊断SparkSql慢任务的案例吧
前天晚上,被拉群,给了一批慢任务,严重影响体验,任务运行时长如下图,有的任务跑了一天,还没跑完,该怎么着手优化呢?
数据仓库践行者
2023-10-30
4570
解决问题的思路:重视原理
几乎每天都会被源码社群的同学问各种sql的优化问题(有在群里问的,有私聊的),有的同学描述问题比较清晰,再加上需要优化的sql的业务逻辑不是特别复杂,所以,我能很快定位问题,并协助解决;但有的同学就没那么幸运,业务逻辑复杂,也没办法描述的更细致,真正的优化可能还需要去深入了解业务逻辑,所以,最终还是得靠自己去解决问题。
数据仓库践行者
2023-09-01
2470
sparksql优化的奇技淫巧(一次惊掉下巴的优化)
只能说,以后大家看到一个看似没用的条件的时候,千万不要随便删除,这个条件很有可能起到了优化的大作用。
数据仓库践行者
2023-03-06
6880
窗口函数为什么更容易出现性能问题?——一个优化案例
我们现在的数据动不动就上百亿,字段动不动就是巨大的json 串,到处是疑难杂症,所以,每天就是拼命的研究这些原理,寻找优化的方法。
数据仓库践行者
2023-03-06
1.2K0
额,关于笛卡尔积CartesianProduct
如果这样理解的话,就会很矛盾,笛卡尔积的依赖中,一个父RDD的分区明明被多个子RDD的分区消费了,可它是窄依赖
数据仓库践行者
2022-11-25
4720
SparkSql全代码生成规则梳理-CollapseCodegenStages
火山模型(迭代器模型), 是1994年 Goetz Graefe 在他的论文 《Volcano, An Extensible and Parallel Query Evaluation System》中提出的概念。
数据仓库践行者
2022-11-25
9810
SparkSql中join和shuffle知识点梳理
sparksql中有一些容易混淆的概念,大家在面试时也会经常被问到join和shuffle相关的问题:
数据仓库践行者
2022-11-25
9120
SparkSql窗口函数源码分析(第一部分)
WindowExpression :描述该expression是一个windowExpression,继承BinaryLike,是一个二元树。
数据仓库践行者
2022-11-25
9030
FlinkSql源码调试环境&flink-table代码结构
这篇搭一下flink1.15的源码环境,看一下flink-table代码的结构,后面每周看一些代码,把flinksql玩好。
数据仓库践行者
2022-11-25
9230
SparkSql不同写法的一些坑(性能优化)
这种情况也是我经常会遇到的一个场景,之前也有同学拿着sql来问,说这样写会不会影响运行效率:
数据仓库践行者
2022-11-25
7081
SparkSql序列化时列的ID是在哪里生成的呢?
sparksql生成解析后的逻辑执行计划时,会通过catalog把各个字段和元数据库绑定,也就说在ResolveLogical的阶段的字段是带了id的:
数据仓库践行者
2022-11-25
7070
SparkSql数组操作的N种骚气用法
最近业务侧花样提需求,里面涉及到了各种数组的切片、合并、去重、拼接、压平等操作,本来以为需要自己开发很多udf才可以,后来扒了一下源码,发现这些用法sparksql已经帮我们实现了呀~~
数据仓库践行者
2022-11-25
2.9K0
SparkSql中多个Stage的并发执行
写一篇水水的技术文,总结一下sparksql中不同stage的并行执行相关,也是来自于一位群友的提问:
数据仓库践行者
2022-11-25
1.3K0
我的优势是什么?
之前总是喜欢去找自己的缺点,然而随着对互联网的认知越来越深入,逐渐发现,最应该做的是让自己的优势更明显,而不是总想着去补短板。
数据仓库践行者
2022-11-25
5620
SparkSql源码成神之路
快来加入我的源码学习社群吧,在社群的长期陪伴下,解决你在学习路上遇到的点点滴滴的问题~~
数据仓库践行者
2022-11-24
8430
sparksql源码系列 | 一文搞懂Partitioning源码体系(spark3.2)
这篇文章主要介绍sparksql中Partitioning的源码体系,和上篇 sparksql源码系列 | 一文搞懂Distribution源码体系(spark3.2)一样, Partitioning也是我们理解Physical Plan、executed Plan、shuffle、SparkSQL的AQE机制等的一个比较基础的知识点。
数据仓库践行者
2022-06-09
7841
sparksql源码系列 | 一文搞懂Distribution源码体系(spark3.2)
这篇文章主要介绍sparksql中Distribution的源码体系,Distribution是我们理解Physical Plan、executed Plan、shuffle、SparkSQL的AQE机制等的一个比较基础的知识点。
数据仓库践行者
2022-06-09
1K0
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档