codingforfun

LV1
发表了文章

Flink 作业生成②:StreamGraph -> JobGraph

由前文我们知道,StreamGraph 表示一个流任务的逻辑拓扑,可以用一个 DAG 来表示(代码实现上没有一个 DAG 结构),DAG 的顶点是 Stream...

codingforfun
发表了文章

Calcite - 看懂 Parser.jj 中的 SqlSelect

javacc 会根据 parser.jj 中定义的相互穿插的 Token、Java 代码来自动生成 org.apache.calcite.sql.parser....

codingforfun
发表了文章

Flink 作业生成①:生成 StreamGraph

如上,通过 DataStreamSource<OUT> StreamExecutionEnvironment#addSource(SourceFunction<...

codingforfun
发表了文章

Spark Aggregations execution

包含 distinct 关键字的 aggregation 由 4 个物理执行步骤组成。我们使用以下 query 来介绍:

codingforfun
订阅了专栏

腾讯云自媒体分享计划

3 文章3.9K 关注者
关注了用户

腾讯云自媒体分享计划

腾讯 · 产品运营 (已认证)

申请条件:至少有 20 篇或以上符合投稿要求可迁入腾讯云专栏的原创技术文章。

3 文章0 回答4K 关注者
发表了文章

Apache Kylin 查询流程源码剖析

其中 olap_model_6607769716595835175.json 内容如下:

codingforfun
apt-getHBase分布式数据库
发表了文章

可能是全网最深度的 Apache Kylin 查询剖析

该过程主要封装在 OLAPToEnumerableConverter#implement 中,主要流程如下:

codingforfun
发表了文章

Apache Kylin 概览

Apche Kylin 是 Hadoop 大数据平台上的一个开源 OLAP 引擎。它采用多维立方体(Cube)预计算技术,可以将某些场景下的大数据 SQL 查询...

codingforfun
发表了文章

Databricks Delta Lake 介绍

Delta Lake 时间旅行允许您查询 Delta Lake 表的旧快照。时间旅行有很多用例,包括:

codingforfun
sparkApache数据处理PythonWindows
发表了文章

Structured Streaming 源码剖析(一)- Source

Source 必须不断地到达数据以进行流式查询。 Source 必须具有单调递增的进度概念,用 offset 表示。 Spark 将定期查询每个 Source ...

codingforfun
KafkaJSON大数据批量计算
发表了文章

第一讲 ①:What is Machine Learning

学习是从观察触发,听觉是一种观察,视觉是一种观察,也许甚至有更多例例如嗅觉或触觉都是一种观察,从这些观察出发,然后经过我们脑袋的内化转化的过程,最后变成有用的技...

codingforfun
机器学习机器人神经网络深度学习AI 人工智能
发表了文章

Spark SQL Limit 介绍及优化

全局限制,最多返回 limitExpr 对应条 records。总是通过 IntegerLiteral#unapply(limitExpr: Expressio...

codingforfun
其他
发表了文章

Spark 内存管理的前世今生(下)

在《Spark 内存管理的前世今生(上)》中,我们介绍了 UnifiedMemoryManager 是如何管理内存的。然而,UnifiedMemoryManag...

codingforfun
spark微信缓存
发表了文章

Spark Sql 源码剖析(二): TreeNode

使用 object CurrentOrigin 为 TreeNodes 提供一个可以查找上下文的地方,比如当前正在解析哪行 code。

codingforfun
其他
发表了文章

Livy Session 详解(下)

即上图中的第 9 步中的 executeCodeFunc,用来真正运行代码片段的函数,流程如下

codingforfun
编程算法
发表了文章

Apache Livy 实现思路及模块概述

关于Apache Livy(下文简称 livy)是什么以及有什么用,请移步:Livy:基于Apache Spark的REST服务

codingforfun
其他
发表了文章

Livy Session 详解(中)

Livy Session 详解(上) - 简书 一文主要介绍了 session 整体的启动流程并详细分析了 client 端(livy server 端)是如何...

codingforfun
ApachesparkRPC
发表了文章

Spark 内存管理的前世今生(上)

作为打着 “内存计算” 旗号出道的 Spark,内存管理是其非常重要的模块。作为使用者,搞清楚 Spark 是如何管理内存的,对我们编码、调试及优化过程会有很大...

codingforfun
spark微信缓存
发表了文章

Spark Sql 源码剖析(三):Analyzer

当一条 sql 语句被 SparkSqlParser 解析为一个 unresolved logicalPlan 后,接下来就会使用 Analyzer 进行 re...

codingforfun
其他

个人简介

个人成就

扫码关注云+社区

领取腾讯云代金券