牛肉圆粉不加葱

86 篇文章
14 人订阅

全部文章

codingforfun

Apache Kylin 概览

Apche Kylin 是 Hadoop 大数据平台上的一个开源 OLAP 引擎。它采用多维立方体(Cube)预计算技术,可以将某些场景下的大数据 SQL 查询...

972
codingforfun

Databricks Delta Lake 介绍

Delta Lake 时间旅行允许您查询 Delta Lake 表的旧快照。时间旅行有很多用例,包括:

762
codingforfun

Structured Streaming 源码剖析(一)- Source

Source 必须不断地到达数据以进行流式查询。 Source 必须具有单调递增的进度概念,用 offset 表示。 Spark 将定期查询每个 Source ...

1085
codingforfun

第一讲 ①:What is Machine Learning

学习是从观察触发,听觉是一种观察,视觉是一种观察,也许甚至有更多例例如嗅觉或触觉都是一种观察,从这些观察出发,然后经过我们脑袋的内化转化的过程,最后变成有用的技...

962
codingforfun

Spark SQL Limit 介绍及优化

全局限制,最多返回 limitExpr 对应条 records。总是通过 IntegerLiteral#unapply(limitExpr: Expressio...

3082
codingforfun

Spark 内存管理的前世今生(下)

在《Spark 内存管理的前世今生(上)》中,我们介绍了 UnifiedMemoryManager 是如何管理内存的。然而,UnifiedMemoryManag...

1022
codingforfun

Spark Sql 源码剖析(二): TreeNode

使用 object CurrentOrigin 为 TreeNodes 提供一个可以查找上下文的地方,比如当前正在解析哪行 code。

723
codingforfun

Livy Session 详解(下)

即上图中的第 9 步中的 executeCodeFunc,用来真正运行代码片段的函数,流程如下

973
codingforfun

Apache Livy 实现思路及模块概述

关于Apache Livy(下文简称 livy)是什么以及有什么用,请移步:Livy:基于Apache Spark的REST服务

1605
codingforfun

Livy Session 详解(中)

Livy Session 详解(上) - 简书 一文主要介绍了 session 整体的启动流程并详细分析了 client 端(livy server 端)是如何...

1073
codingforfun

Spark 内存管理的前世今生(上)

作为打着 “内存计算” 旗号出道的 Spark,内存管理是其非常重要的模块。作为使用者,搞清楚 Spark 是如何管理内存的,对我们编码、调试及优化过程会有很大...

1052
codingforfun

Spark Sql 源码剖析(三):Analyzer

当一条 sql 语句被 SparkSqlParser 解析为一个 unresolved logicalPlan 后,接下来就会使用 Analyzer 进行 re...

1112
codingforfun

Structured Streaming 编程指南

Structured Streaming 是一个基于 Spark SQL 引擎的、可扩展的且支持容错的流处理引擎。你可以像表达静态数据上的批处理计算一样表达流计...

1262
codingforfun

Livy Session 详解(上)

从Livy Rest Api的介绍中我们可以知道,livy 共有两种 job,分别是 session 和 batch。然而,在源码实现中,session 和 b...

1712
codingforfun

Spark Task 的执行流程② - 创建、分发 Task

task 的创建本应该放在分配 tasks 给 executors一文中进行介绍,但由于创建的过程与分发及之后的反序列化执行关系紧密,我把这一部分内容挪到了本文...

721
codingforfun

Spark Task 的执行流程① - 分配 tasks 给 executors

等时机把处于等待状态的 tasks 分配给有空闲资源的 executors,那么这个 “把 task 分配给 executor” 的过程具体是怎样的呢?这就是本...

1022
codingforfun

Spark executor 模块③ - 启动 executor

在介绍AppClient 向 Master 注册 Application的过程中,我们知道 Master 在处理 AppClient 的注册消息时,会进行调度,...

491
codingforfun

Spark Task 的执行流程③ - 执行 task

创建、分发 Task一文中我们提到 TaskRunner(继承于 Runnable) 对象最终会被提交到 Executor 的线程池中去执行,本文就将对该执行过...

741
codingforfun

Spark Task 内存管理(on-heap&off-heap)

在之前的文章中(Spark 新旧内存管理方案(上)及Spark 新旧内存管理方案(下)),我从粗粒度上对 Spark 内存管理进行了剖析,但我们依然会有类似这样...

1131
codingforfun

Spark Task 的执行流程④ - task 结果的处理

Spark Task 的执行流程③ - 执行 task一文中介绍了 task 是如何执行并返回 task 执行结果的,本文将进一步介绍 task 的结果是怎么处...

1242

扫码关注云+社区