数据仓库践行者

文章/答案/技术大牛

发布

LV0

发表了文章 2024-01-162024-01-16 14:43:27

再来说说sparksql中count(distinct)原理和优化手段吧~

元旦前一周到现在总共接到9个sparksql相关的优化咨询，这些案例中，有4个和count(distinct)有关。

数据仓库践行者 2024-01-162024-01-16 14:43:27

源码、count、distinct、优化、原理

发表了文章 2023-11-202023-11-20 16:38:44

关于数仓监控体系优化的实践

额，我觉得我特别擅长从细节处思考，主要也是因为我接触到的事情确确实实都是特别具体的、需要立刻去解决的、特别个性化、特别的贴合业务的事情。

数据仓库践行者 2023-11-202023-11-20 16:38:50

监控、实践、数据、推送、优化

发表了文章 2023-11-072023-11-07 17:26:04

Atlas自动感知hivesql及sparksql血缘实践

这周真的是忙出天际，趁这会儿下班，赶紧补补文档，之前有说要整整血缘这块儿，源码都看好了，但没有展示的地方。

数据仓库践行者 2023-11-072023-11-07 17:26:07

hive、编译、配置、实践、数据

发表了文章 2023-10-302023-10-30 17:03:08

再来一个诊断SparkSql慢任务的案例吧

前天晚上，被拉群，给了一批慢任务，严重影响体验，任务运行时长如下图，有的任务跑了一天，还没跑完，该怎么着手优化呢？

数据仓库践行者 2023-10-302023-10-30 17:03:12

date、队列、开发、数据、优化

发表了文章 2023-09-012023-09-01 09:50:03

解决问题的思路：重视原理

几乎每天都会被源码社群的同学问各种sql的优化问题（有在群里问的，有私聊的），有的同学描述问题比较清晰，再加上需要优化的sql的业务逻辑不是特别复杂，所以，我能...

数据仓库践行者 2023-09-012023-09-01 09:50:03

磁盘、内存、数据、优化、原理

发表了文章 2023-03-062023-03-06 14:51:52

sparksql优化的奇技淫巧（一次惊掉下巴的优化）

只能说，以后大家看到一个看似没用的条件的时候，千万不要随便删除，这个条件很有可能起到了优化的大作用。

数据仓库践行者 2023-03-062023-03-06 14:51:52

spark、sql、数据库

发表了文章 2023-03-062023-03-06 14:50:28

窗口函数为什么更容易出现性能问题？——一个优化案例

我们现在的数据动不动就上百亿，字段动不动就是巨大的json 串，到处是疑难杂症，所以，每天就是拼命的研究这些原理，寻找优化的方法。

数据仓库践行者 2023-03-062023-03-06 14:50:28

spark、sql、数据库

发表了文章 2022-11-252022-11-25 20:01:11

额，关于笛卡尔积CartesianProduct

如果这样理解的话，就会很矛盾，笛卡尔积的依赖中，一个父RDD的分区明明被多个子RDD的分区消费了，可它是窄依赖

数据仓库践行者 2022-11-252022-11-25 20:01:11

join、map、shuffle、源码

发表了文章 2022-11-252022-11-25 20:00:11

SparkSql全代码生成规则梳理-CollapseCodegenStages

火山模型（迭代器模型），是1994年 Goetz Graefe 在他的论文《Volcano, An Extensible and Parallel Quer...

数据仓库践行者 2022-11-252022-11-25 20:00:11

ide、单片机、编程算法、java、缓存

发表了文章 2022-11-252022-11-25 19:59:43

SparkSql中join和shuffle知识点梳理

sparksql中有一些容易混淆的概念，大家在面试时也会经常被问到join和shuffle相关的问题：

数据仓库践行者 2022-11-252022-11-25 19:59:42

spark、sql、数据库

发表了文章 2022-11-252022-11-25 19:59:18

SparkSql窗口函数源码分析（第一部分）

WindowExpression ：描述该expression是一个windowExpression，继承BinaryLike，是一个二元树。

数据仓库践行者 2022-11-252022-11-25 19:59:18

python、sql、windows、数据库

发表了文章 2022-11-252022-11-25 19:58:50

FlinkSql源码调试环境&flink-table代码结构

这篇搭一下flink1.15的源码环境，看一下flink-table代码的结构，后面每周看一些代码，把flinksql玩好。

数据仓库践行者 2022-11-252022-11-25 19:58:50

api、sql、scala、ide

发表了文章 2022-11-252022-11-25 19:58:03

SparkSql不同写法的一些坑(性能优化)

这种情况也是我经常会遇到的一个场景，之前也有同学拿着sql来问，说这样写会不会影响运行效率：

数据仓库践行者 2022-11-252022-11-25 19:58:03

数据库、sql

发表了文章 2022-11-252022-11-25 19:55:33

SparkSql序列化时列的ID是在哪里生成的呢？

sparksql生成解析后的逻辑执行计划时，会通过catalog把各个字段和元数据库绑定，也就说在ResolveLogical的阶段的字段是带了id的：

数据仓库践行者 2022-11-252022-11-25 19:55:33

文件存储、数据库、sql

发表了文章 2022-11-252022-11-25 19:39:29

SparkSql数组操作的N种骚气用法

最近业务侧花样提需求，里面涉及到了各种数组的切片、合并、去重、拼接、压平等操作，本来以为需要自己开发很多udf才可以，后来扒了一下源码，发现这些用法sparks...

数据仓库践行者 2022-11-252022-11-25 19:39:29

编程算法、sql、spark、数据库

发表了文章 2022-11-252022-11-25 19:36:37

SparkSql中多个Stage的并发执行

写一篇水水的技术文，总结一下sparksql中不同stage的并行执行相关，也是来自于一位群友的提问：

数据仓库践行者 2022-11-252022-11-25 19:36:37

sql、hive、spark

发表了文章 2022-11-252022-11-25 19:34:44

我的优势是什么？

之前总是喜欢去找自己的缺点，然而随着对互联网的认知越来越深入，逐渐发现，最应该做的是让自己的优势更明显，而不是总想着去补短板。

数据仓库践行者 2022-11-252022-11-25 19:34:44

hive、spark、sql

发表了文章 2022-11-242022-11-24 16:16:07

SparkSql源码成神之路

快来加入我的源码学习社群吧，在社群的长期陪伴下，解决你在学习路上遇到的点点滴滴的问题~~

数据仓库践行者 2022-11-242022-11-24 16:16:07

spark、sql、数据库、编程算法

发表了文章 2022-06-092022-06-09 21:36:10

sparksql源码系列 | 一文搞懂Partitioning源码体系(spark3.2)

这篇文章主要介绍sparksql中Partitioning的源码体系，和上篇 sparksql源码系列 | 一文搞懂Distribution源码体系(spark...

数据仓库践行者 2022-06-092022-06-09 21:36:10

spark、sql、数据库

发表了文章 2022-06-092022-06-09 21:35:35

sparksql源码系列 | 一文搞懂Distribution源码体系(spark3.2)

这篇文章主要介绍sparksql中Distribution的源码体系，Distribution是我们理解Physical Plan、executed Plan、...

数据仓库践行者 2022-06-092022-06-09 21:35:35

spark、数据库、sql

12 3 4 5 下一页

个人简介

字节跳动 | 数据仓库开发
数据仓库从业者，喜欢分享，在成为最厉害最厉害最厉害的路上
spark hive hadoop sql java
校上跪着不让说 | 计算机
https://www.zhihu.com/people/hongmianao/posts
北京
加入社区时间：2020-04-16

个人成就

获得 283 次赞同
文章被阅读 149.7K 次

关注了：1关注者：117