暂无搜索历史
元旦前一周到现在总共接到9个sparksql相关的优化咨询,这些案例中,有4个和count(distinct)有关。
额,我觉得我特别擅长从细节处思考,主要也是因为我接触到的事情确确实实都是特别具体的、需要立刻去解决的、特别个性化、特别的贴合业务的事情。
这周真的是忙出天际,趁这会儿下班,赶紧补补文档,之前有说要整整血缘这块儿,源码都看好了,但没有展示的地方。
前天晚上,被拉群,给了一批慢任务,严重影响体验,任务运行时长如下图,有的任务跑了一天,还没跑完,该怎么着手优化呢?
几乎每天都会被源码社群的同学问各种sql的优化问题(有在群里问的,有私聊的),有的同学描述问题比较清晰,再加上需要优化的sql的业务逻辑不是特别复杂,所以,我能...
只能说,以后大家看到一个看似没用的条件的时候,千万不要随便删除,这个条件很有可能起到了优化的大作用。
我们现在的数据动不动就上百亿,字段动不动就是巨大的json 串,到处是疑难杂症,所以,每天就是拼命的研究这些原理,寻找优化的方法。
如果这样理解的话,就会很矛盾,笛卡尔积的依赖中,一个父RDD的分区明明被多个子RDD的分区消费了,可它是窄依赖
火山模型(迭代器模型), 是1994年 Goetz Graefe 在他的论文 《Volcano, An Extensible and Parallel Quer...
sparksql中有一些容易混淆的概念,大家在面试时也会经常被问到join和shuffle相关的问题:
WindowExpression :描述该expression是一个windowExpression,继承BinaryLike,是一个二元树。
这篇搭一下flink1.15的源码环境,看一下flink-table代码的结构,后面每周看一些代码,把flinksql玩好。
这种情况也是我经常会遇到的一个场景,之前也有同学拿着sql来问,说这样写会不会影响运行效率:
sparksql生成解析后的逻辑执行计划时,会通过catalog把各个字段和元数据库绑定,也就说在ResolveLogical的阶段的字段是带了id的:
最近业务侧花样提需求,里面涉及到了各种数组的切片、合并、去重、拼接、压平等操作,本来以为需要自己开发很多udf才可以,后来扒了一下源码,发现这些用法sparks...
写一篇水水的技术文,总结一下sparksql中不同stage的并行执行相关,也是来自于一位群友的提问:
之前总是喜欢去找自己的缺点,然而随着对互联网的认知越来越深入,逐渐发现,最应该做的是让自己的优势更明显,而不是总想着去补短板。
快来加入我的源码学习社群吧,在社群的长期陪伴下,解决你在学习路上遇到的点点滴滴的问题~~
这篇文章主要介绍sparksql中Partitioning的源码体系,和上篇 sparksql源码系列 | 一文搞懂Distribution源码体系(spark...
这篇文章主要介绍sparksql中Distribution的源码体系,Distribution是我们理解Physical Plan、executed Plan、...