数据仓库践行者

LV0
发表了文章

Java 进程内存分布

一般 Unix 系统中,用户态的程序通过malloc()调用申请内存。如果返回值是 NULL, 说明此时操作系统没有空闲内存。这种情况下,用户程序可以选择直接退...

数据仓库践行者
发表了文章

关于【你们数据仓库是怎么设计的】如何回答?

另外我觉得,问这个问题,也不一定就要让你照本宣科,把现在的数仓理论背一遍。更多的是想看你做了哪些有亮点的事,有哪些有亮点的想法。

数据仓库践行者
发表了文章

深入剖析Tez原理

https://hortonworks.com/blog/expressing-data-processing-in-apache-tez/

数据仓库践行者
发表了文章

你阅读源码的心态是什么?有哪些经验分享?

以上种种,也许还有一些其它重要的原因,比如说qiong ... 一直以来让我非常非常有内驱力的坚持到现在。

数据仓库践行者
发表了文章

你真的了解Lateral View explode吗?--源码复盘

Lateral view与UDTF函数一起使用,UDTF对每个输入行产生0或者多个输出行。Lateral view首先在基表的每个输入行应用UDTF,然后连接结...

数据仓库践行者
发表了文章

从一个sql任务理解spark内存模型

上一篇在内存模型理解部分描述不当,以下是我重新整理后的,有需要的可以琢磨琢磨,不管是日常任务调优,还是面试 总会起点作用吧:

数据仓库践行者
发表了文章

从一个sql任务理解spark内存模型

之前是只知道内存模型理论上是怎么样的,这次拿到一个具体的任务,具体的executor来做对照分析,加深理解,在调内存参数时,也能有个依据。

数据仓库践行者
发表了文章

你为什么从java开发转大数据? 大数据方向能走的更远吗?

看到这个问题,想到了几年前,学校刚毕业时,在传统行业做java开发,一直想加入bat,没有门路,在当时,对于双非渣二本学历、又没有什么互联网大厂经验的同学来说,...

数据仓库践行者
发表了文章

spark、hive中窗口函数实现原理复盘

这篇文章从一次业务中遇到的问题出发,深入聊了聊hsql中窗口函数的数据流转原理,在文章最后针对这个问题给出解决方案。

数据仓库践行者
发表了文章

数仓字段血缘解析实现—hive版

1、两个数据报表进行对比,结果差异很大,需要人工核对分析指标的维度信息,比如从头分析数据指标从哪里来,处理条件是什么,最后才能分析出问题原因 ——数...

数据仓库践行者
发表了文章

从一个sql引发的hive谓词下推的全面复盘及源码分析(下)

词法语法解析—>语义解析—>生成逻辑执行计划—>优化逻辑执行计划—>生成物理执行计划—>优化物理执行计划

数据仓库践行者
发表了文章

spark sql多维分析优化——细节是魔鬼

这是一张广告竞价的业务表,每一条请求 request_id 都会产生一条数据,一天下来,数据量是很大的(几十亿)。 然而,又要对 7个维度做成22个组合,分别...

数据仓库践行者
发表了文章

从一个sql引发的hive谓词下推的全面复盘及源码分析(上)

经常听到【谓词下推】这个词,却从来没有对它进行全面的深入的研究,直到前些天,我们的数据产品跑过来跟我讨论 他写的一个sql,这个sql最终出现的结果并不是他想要...

数据仓库践行者
发表了文章

Hive源码系列(十)编译模块之语义解析 数据准备

在hive的源码apache-hive-2.1.1-src/data目录 下有测试数据以及脚本,进入该 目录执行 hive -f 'scripts/q_test...

数据仓库践行者
发表了文章

记录一次spark sql的优化过程

集群有一个spark sql的任务,每天需要跑38561秒,噢,来计算一下38561/60/60 这就是10.7个小时呀,就是下面那这种样子:

数据仓库践行者
发表了文章

Hive源码系列(九)编译模块之语义解析 整体分析

语义解析主要是把AST Tree转化为QueryBlock,那为什么要转成QueryBlock呢?从之前的分析,我们可以看到AST Tree 还是很抽象,并且也...

数据仓库践行者
发表了文章

Hive源码系列(一)hive2.1.1+hadoop2.7.3环境搭建

这是一篇工具类的文章,工欲善其事必先利其器,要分析调试hive源码,必须搭建一套hive的运行环境。还记得第一次搭建hive源码调试环境,用了一个月的时间,才完...

数据仓库践行者
发表了文章

数据仓库开发人员怎么避免成为取数机器?

从事互联网数据仓库工作好多年了,其中最大的感触就是数据仓库开发人员每天做的最多的工作就是为业务方取数。简单重复的取数工作,一方面很难让大家在技能上有提高,另一方...

数据仓库践行者
发表了文章

Hive Bug系列之关联结果不正确详解

Hive是互联数据仓库中使用最频繁的工具,做为仓库的技术人员,有很大必要去深入了解它,并以认真的态度去对待工作中遇到的每个问题,每个知识点,由点及面,让我们的技...

数据仓库践行者
发表了文章

Hive源码系列(二)hive2.1.1源码编译并编译成eclipse项目

这是一篇工具类的文章,工欲善其事必先利其器,要分析调试hive源码,必须搭建一套hive的运行环境。还记得第一次搭建hive源码调试环境,用了一个月的时间,才完...

数据仓库践行者

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券