牛肉圆粉不加葱

82 篇文章
12 人订阅

全部文章

codingforfun

Spark SQL Limit 介绍及优化

全局限制,最多返回 limitExpr 对应条 records。总是通过 IntegerLiteral#unapply(limitExpr: Expressio...

1832
codingforfun

Spark 内存管理的前世今生(下)

在《Spark 内存管理的前世今生(上)》中,我们介绍了 UnifiedMemoryManager 是如何管理内存的。然而,UnifiedMemoryManag...

732
codingforfun

Spark Sql 源码剖析(二): TreeNode

使用 object CurrentOrigin 为 TreeNodes 提供一个可以查找上下文的地方,比如当前正在解析哪行 code。

493
codingforfun

Livy Session 详解(下)

即上图中的第 9 步中的 executeCodeFunc,用来真正运行代码片段的函数,流程如下

773
codingforfun

Apache Livy 实现思路及模块概述

关于Apache Livy(下文简称 livy)是什么以及有什么用,请移步:Livy:基于Apache Spark的REST服务

955
codingforfun

Livy Session 详解(中)

Livy Session 详解(上) - 简书 一文主要介绍了 session 整体的启动流程并详细分析了 client 端(livy server 端)是如何...

763
codingforfun

Spark 内存管理的前世今生(上)

作为打着 “内存计算” 旗号出道的 Spark,内存管理是其非常重要的模块。作为使用者,搞清楚 Spark 是如何管理内存的,对我们编码、调试及优化过程会有很大...

772
codingforfun

Spark Sql 源码剖析(三):Analyzer

当一条 sql 语句被 SparkSqlParser 解析为一个 unresolved logicalPlan 后,接下来就会使用 Analyzer 进行 re...

732
codingforfun

Structured Streaming 编程指南

Structured Streaming 是一个基于 Spark SQL 引擎的、可扩展的且支持容错的流处理引擎。你可以像表达静态数据上的批处理计算一样表达流计...

822
codingforfun

Livy Session 详解(上)

从Livy Rest Api的介绍中我们可以知道,livy 共有两种 job,分别是 session 和 batch。然而,在源码实现中,session 和 b...

1162
codingforfun

Spark Task 的执行流程② - 创建、分发 Task

task 的创建本应该放在分配 tasks 给 executors一文中进行介绍,但由于创建的过程与分发及之后的反序列化执行关系紧密,我把这一部分内容挪到了本文...

551
codingforfun

Spark Task 的执行流程① - 分配 tasks 给 executors

等时机把处于等待状态的 tasks 分配给有空闲资源的 executors,那么这个 “把 task 分配给 executor” 的过程具体是怎样的呢?这就是本...

782
codingforfun

Spark executor 模块③ - 启动 executor

在介绍AppClient 向 Master 注册 Application的过程中,我们知道 Master 在处理 AppClient 的注册消息时,会进行调度,...

371
codingforfun

Spark Task 的执行流程③ - 执行 task

创建、分发 Task一文中我们提到 TaskRunner(继承于 Runnable) 对象最终会被提交到 Executor 的线程池中去执行,本文就将对该执行过...

561
codingforfun

Spark Task 内存管理(on-heap&off-heap)

在之前的文章中(Spark 新旧内存管理方案(上)及Spark 新旧内存管理方案(下)),我从粗粒度上对 Spark 内存管理进行了剖析,但我们依然会有类似这样...

841
codingforfun

Spark Task 的执行流程④ - task 结果的处理

Spark Task 的执行流程③ - 执行 task一文中介绍了 task 是如何执行并返回 task 执行结果的,本文将进一步介绍 task 的结果是怎么处...

1012
codingforfun

Spark Sql 源码剖析(一):sql 执行的主要流程

之前写过不少 Spark Core、Spark Streaming 相关的文章,但使用更广泛的 Spark Sql 倒是极少,恰好最近工作中使用到了,便开始研读...

871
codingforfun

Spark Storage ④ - 存储执行类介绍(DiskBlockManager、DiskStore、MemoryStore)

这篇文章前半部分我们对直接在 Block 存取发挥重要作用的类进行介绍,主要是 DiskBlockManager、MemoryStore、DiskStore。后...

742
codingforfun

Spark Storage ② - BlockManager 的创建与注册

上一篇文章介绍了 Spark Storage 模块的整体架构,本文将着手介绍在 Storeage Master 和 Slave 上发挥重要作用的 BlockMa...

461
codingforfun

Spark RPC 简述

Spark 中的消息通信主要涉及 RpcEnv、RpcEndpoint 及 RpcEndpointRef 几个类,下面进行简单介绍

813

扫码关注云+社区