数据仓库践行者

LV0
发表了文章

json_tuple一定比 get_json_object更高效吗?

要理性的比较json_tuple和get_json_object的效率,最近有朋友问我:hive中取多个key时,为什么用了json_tuple,效率反而比ge...

数据仓库践行者
发表了文章

with as 语句真的会把查询的数据存内存嘛?

这个参数在默认情况下是-1(关闭的);当开启(大于0),比如设置为2,则如果with..as语句被引用2次及以上时,会把with..as语句生成的table物化...

数据仓库践行者
发表了文章

SparkSql LogicalPlan的resolved变量

logicalplan分unresolved logical plan和resolved logical plan,resolved可以被子类重写。

数据仓库践行者
发表了文章

Spark sql 生成PhysicalPlan(源码详解)

QueryExecution.createSparkPlan -> (SparkPlanner.plan)SparkStrategies.plan ->Que...

数据仓库践行者
发表了文章

Spark sql规则执行器RuleExecutor(源码解析)

Spark sql通过Analyzer中 定义的rule把Parsed Logical Plan解析成 Analyzed Logical Plan;通过Opti...

数据仓库践行者
发表了文章

spark sql解析过程中对tree的遍历(源码详解)

Parsed Logical Plan, Analyzed Logical Plan, Optimized Logical Plan, Physical Pla...

数据仓库践行者
发表了文章

一文搞定Kerberos

Kerberos 是一种身份认证协议,被广泛运用在大数据生态中,甚至可以说是大数据身份认证的事实标准。本文将详细说明 Kerberos 原理。

数据仓库践行者
发表了文章

Java 进程内存分布

一般 Unix 系统中,用户态的程序通过malloc()调用申请内存。如果返回值是 NULL, 说明此时操作系统没有空闲内存。这种情况下,用户程序可以选择直接退...

数据仓库践行者
发表了文章

关于【你们数据仓库是怎么设计的】如何回答?

另外我觉得,问这个问题,也不一定就要让你照本宣科,把现在的数仓理论背一遍。更多的是想看你做了哪些有亮点的事,有哪些有亮点的想法。

数据仓库践行者
发表了文章

深入剖析Tez原理

https://hortonworks.com/blog/expressing-data-processing-in-apache-tez/

数据仓库践行者
发表了文章

你阅读源码的心态是什么?有哪些经验分享?

以上种种,也许还有一些其它重要的原因,比如说qiong ... 一直以来让我非常非常有内驱力的坚持到现在。

数据仓库践行者
发表了文章

你真的了解Lateral View explode吗?--源码复盘

Lateral view与UDTF函数一起使用,UDTF对每个输入行产生0或者多个输出行。Lateral view首先在基表的每个输入行应用UDTF,然后连接结...

数据仓库践行者
发表了文章

从一个sql任务理解spark内存模型

上一篇在内存模型理解部分描述不当,以下是我重新整理后的,有需要的可以琢磨琢磨,不管是日常任务调优,还是面试 总会起点作用吧:

数据仓库践行者
发表了文章

从一个sql任务理解spark内存模型

之前是只知道内存模型理论上是怎么样的,这次拿到一个具体的任务,具体的executor来做对照分析,加深理解,在调内存参数时,也能有个依据。

数据仓库践行者
发表了文章

你为什么从java开发转大数据? 大数据方向能走的更远吗?

看到这个问题,想到了几年前,学校刚毕业时,在传统行业做java开发,一直想加入bat,没有门路,在当时,对于双非渣二本学历、又没有什么互联网大厂经验的同学来说,...

数据仓库践行者
发表了文章

spark、hive中窗口函数实现原理复盘

这篇文章从一次业务中遇到的问题出发,深入聊了聊hsql中窗口函数的数据流转原理,在文章最后针对这个问题给出解决方案。

数据仓库践行者
发表了文章

数仓字段血缘解析实现—hive版

1、两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因 ——数...

数据仓库践行者
发表了文章

从一个sql引发的hive谓词下推的全面复盘及源码分析(下)

词法语法解析—>语义解析—>生成逻辑执行计划—>优化逻辑执行计划—>生成物理执行计划—>优化物理执行计划

数据仓库践行者
发表了文章

spark sql多维分析优化——细节是魔鬼

这是一张广告竞价的业务表,每一条请求 request_id 都会产生一条数据,一天下来,数据量是很大的(几十亿)。 然而,又要对 7个维度做成22个组合,分别...

数据仓库践行者
发表了文章

从一个sql引发的hive谓词下推的全面复盘及源码分析(上)

经常听到【谓词下推】这个词,却从来没有对它进行全面的深入的研究,直到前些天,我们的数据产品跑过来跟我讨论 他写的一个sql,这个sql最终出现的结果并不是他想要...

数据仓库践行者

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券