腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
首页
学习
活动
专区
圈层
工具
返回腾讯云官网
数据仓库践行者
专栏成员
举报
92
文章
143502
阅读量
32
订阅数
订阅专栏
申请加入专栏
全部文章(92)
sql(54)
spark(37)
hive(29)
编程算法(21)
数据库(17)
java(12)
打包(8)
linux(8)
大数据(8)
ide(7)
express(7)
scala(6)
node.js(4)
文件存储(4)
http(4)
网络安全(4)
hadoop(4)
数据(4)
优化(4)
python(3)
eclipse(3)
api(3)
analyzer(3)
mapreduce(3)
缓存(3)
grep(3)
https(3)
flink(3)
json(2)
maven(2)
unix(2)
apache(2)
存储(2)
jvm(2)
正则表达式(2)
lag(2)
登录(2)
实践(2)
原理(2)
源码(2)
c++(1)
perl(1)
javascript(1)
actionscript(1)
xml(1)
css(1)
单片机(1)
github(1)
批量计算(1)
访问管理(1)
serverless(1)
面向对象编程(1)
kerberos(1)
数据处理(1)
windows(1)
hbase(1)
kafka(1)
es(1)
学习方法(1)
case(1)
count(1)
date(1)
distinct(1)
dt(1)
expand(1)
input(1)
int(1)
join(1)
map(1)
max(1)
output(1)
project(1)
rank(1)
row(1)
shuffle(1)
sum(1)
编译(1)
磁盘(1)
队列(1)
监控(1)
开发(1)
内存(1)
配置(1)
设计(1)
推送(1)
搜索文章
搜索
搜索
关闭
再来说说sparksql中count(distinct)原理和优化手段吧~
源码
count
distinct
优化
原理
元旦前一周到现在总共接到9个sparksql相关的优化咨询,这些案例中,有4个和count(distinct)有关。
数据仓库践行者
2024-01-16
1.9K
0
关于数仓监控体系优化的实践
监控
实践
数据
推送
优化
额,我觉得我特别擅长从细节处思考,主要也是因为我接触到的事情确确实实都是特别具体的、需要立刻去解决的、特别个性化、特别的贴合业务的事情。
数据仓库践行者
2023-11-20
350
0
Atlas自动感知hivesql及sparksql血缘实践
hive
编译
配置
实践
数据
这周真的是忙出天际,趁这会儿下班,赶紧补补文档,之前有说要整整血缘这块儿,源码都看好了,但没有展示的地方。
数据仓库践行者
2023-11-07
1.3K
0
再来一个诊断SparkSql慢任务的案例吧
date
队列
开发
数据
优化
前天晚上,被拉群,给了一批慢任务,严重影响体验,任务运行时长如下图,有的任务跑了一天,还没跑完,该怎么着手优化呢?
数据仓库践行者
2023-10-30
808
0
解决问题的思路:重视原理
磁盘
内存
数据
优化
原理
几乎每天都会被源码社群的同学问各种sql的优化问题(有在群里问的,有私聊的),有的同学描述问题比较清晰,再加上需要优化的sql的业务逻辑不是特别复杂,所以,我能很快定位问题,并协助解决;但有的同学就没那么幸运,业务逻辑复杂,也没办法描述的更细致,真正的优化可能还需要去深入了解业务逻辑,所以,最终还是得靠自己去解决问题。
数据仓库践行者
2023-09-01
321
0
sparksql优化的奇技淫巧(一次惊掉下巴的优化)
spark
sql
数据库
只能说,以后大家看到一个看似没用的条件的时候,千万不要随便删除,这个条件很有可能起到了优化的大作用。
数据仓库践行者
2023-03-06
996
0
窗口函数为什么更容易出现性能问题?——一个优化案例
spark
sql
数据库
我们现在的数据动不动就上百亿,字段动不动就是巨大的json 串,到处是疑难杂症,所以,每天就是拼命的研究这些原理,寻找优化的方法。
数据仓库践行者
2023-03-06
2K
0
额,关于笛卡尔积CartesianProduct
join
map
shuffle
源码
如果这样理解的话,就会很矛盾,笛卡尔积的依赖中,一个父RDD的分区明明被多个子RDD的分区消费了,可它是窄依赖
数据仓库践行者
2022-11-25
563
0
SparkSql全代码生成规则梳理-CollapseCodegenStages
ide
单片机
编程算法
java
缓存
火山模型(迭代器模型), 是1994年 Goetz Graefe 在他的论文 《Volcano, An Extensible and Parallel Query Evaluation System》中提出的概念。
数据仓库践行者
2022-11-25
1.4K
0
SparkSql中join和shuffle知识点梳理
spark
sql
数据库
sparksql中有一些容易混淆的概念,大家在面试时也会经常被问到join和shuffle相关的问题:
数据仓库践行者
2022-11-25
1.2K
0
SparkSql窗口函数源码分析(第一部分)
python
sql
windows
数据库
WindowExpression :描述该expression是一个windowExpression,继承BinaryLike,是一个二元树。
数据仓库践行者
2022-11-25
1.1K
0
FlinkSql源码调试环境&flink-table代码结构
api
sql
scala
ide
这篇搭一下flink1.15的源码环境,看一下flink-table代码的结构,后面每周看一些代码,把flinksql玩好。
数据仓库践行者
2022-11-25
1K
0
SparkSql不同写法的一些坑(性能优化)
数据库
sql
这种情况也是我经常会遇到的一个场景,之前也有同学拿着sql来问,说这样写会不会影响运行效率:
数据仓库践行者
2022-11-25
826
1
SparkSql序列化时列的ID是在哪里生成的呢?
文件存储
数据库
sql
sparksql生成解析后的逻辑执行计划时,会通过catalog把各个字段和元数据库绑定,也就说在ResolveLogical的阶段的字段是带了id的:
数据仓库践行者
2022-11-25
766
0
SparkSql数组操作的N种骚气用法
编程算法
sql
spark
数据库
最近业务侧花样提需求,里面涉及到了各种数组的切片、合并、去重、拼接、压平等操作,本来以为需要自己开发很多udf才可以,后来扒了一下源码,发现这些用法sparksql已经帮我们实现了呀~~
数据仓库践行者
2022-11-25
4.3K
0
SparkSql中多个Stage的并发执行
sql
hive
spark
写一篇水水的技术文,总结一下sparksql中不同stage的并行执行相关,也是来自于一位群友的提问:
数据仓库践行者
2022-11-25
1.6K
0
我的优势是什么?
hive
spark
sql
之前总是喜欢去找自己的缺点,然而随着对互联网的认知越来越深入,逐渐发现,最应该做的是让自己的优势更明显,而不是总想着去补短板。
数据仓库践行者
2022-11-25
630
0
SparkSql源码成神之路
spark
sql
数据库
编程算法
快来加入我的源码学习社群吧,在社群的长期陪伴下,解决你在学习路上遇到的点点滴滴的问题~~
数据仓库践行者
2022-11-24
1K
0
sparksql源码系列 | 一文搞懂Partitioning源码体系(spark3.2)
spark
sql
数据库
这篇文章主要介绍sparksql中Partitioning的源码体系,和上篇 sparksql源码系列 | 一文搞懂Distribution源码体系(spark3.2)一样, Partitioning也是我们理解Physical Plan、executed Plan、shuffle、SparkSQL的AQE机制等的一个比较基础的知识点。
数据仓库践行者
2022-06-09
1.2K
1
sparksql源码系列 | 一文搞懂Distribution源码体系(spark3.2)
spark
数据库
sql
这篇文章主要介绍sparksql中Distribution的源码体系,Distribution是我们理解Physical Plan、executed Plan、shuffle、SparkSQL的AQE机制等的一个比较基础的知识点。
数据仓库践行者
2022-06-09
1.2K
0
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档