Tim在路上

文章/答案/技术大牛

发布

LV1

发表了文章 2022-09-072022-09-07 14:25:40

[Delta][SQL] Delta开源付费功能，最全分析ZOrder的源码实现流程

通常为提高数据处理的效率，计算引擎要实现谓词的下推，而存储引擎可以根据下推的过滤条件尽可能的跳过无关数据或文件。不管是Hudi、Iceberg还是Delta都实...

Tim在路上 2022-09-072022-09-07 14:25:40

spark、编程算法

发表了文章 2022-09-012022-09-01 16:35:50

[LakeHouse] Delta Lake全部开源，聊聊Delta的实现架构

刚刚结束的Data + AI summit上，Databricks宣布将Delta Lake全部开源。

Tim在路上 2022-09-012022-09-01 16:35:50

json、对象存储、存储、开源

发表了文章 2022-06-192022-06-19 14:39:42

[LakeHouse] 数据湖之Iceberg一种开放的表格式

Iceberg项目2017年由Netflix发起，它是在2018年被Netflix捐赠给Apache基金会的项目。在2021年Iceberg的作者Ryan B...

Tim在路上 2022-06-192022-06-19 14:39:42

hive、数据湖、大数据、spark、存储

发表了文章 2022-06-152022-06-15 18:19:30

[SPARK][CORE] 面试问题之 3.2新的特性Push-based Shuffle源码解析

Spark 3.2为spark shuffle带来了重大的改变，其中新增了push-based shuffle机制。但其实在push-based shuffle...

Tim在路上 2022-06-152022-06-15 18:19:30

linux、hbase、TDSQL MySQL 版、vr 视频解决方案、数据处理

发表了文章 2022-06-122022-06-12 14:02:47

[SPARK][CORE] 面试问题之什么是 external shuffle service？

在讨论external shuffle service的具体实现之前，我们先来回顾下spark shuffle的大概过程。

Tim在路上 2022-06-122022-06-12 14:02:47

spark、linux、数据结构、yarn、node.js

发表了文章 2022-06-122022-06-12 14:00:05

[SPARK][CORE] 面试问题之谈一谈Push-based shuffle

在Spark3.2中引入了领英设计的一种新的shuffle方案，今天我们先来了解下其大致的设计原理，之后会再分析其具体的代码实现。

Tim在路上 2022-06-122022-06-12 14:00:05

vr 视频解决方案、spark、编程算法、mapreduce、linux

发表了文章 2022-06-082022-06-08 18:14:55

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（下）

在Spark中shuffleWriter有三种实现，分别是bypassMergeSortShuffleWriter, UnsafeShuffleWriter和S...

Tim在路上 2022-06-082022-06-08 18:14:55

java、vr 视频解决方案、linux、网站、mapreduce

发表了文章 2022-06-052022-06-05 12:00:49

[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（下）

Unsafe Shuffle的实现在一定程度上是Tungsten内存管理优化的的主要应用场景。其实现过程实际上和SortShuffleWriter是类似的，但...

Tim在路上 2022-06-052022-06-05 12:00:49

文件存储、编程算法、api、数据结构

发表了文章 2022-06-052022-06-05 12:00:19

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（上）

之前我们已经了解了shuffle writer的详细过程，那么生成文件后会发生什么呢？以及它们是如何被读取呢？读取是内存的操作吗？这些问题也随之产生，那么今天...

Tim在路上 2022-06-052022-06-05 12:00:19

spark、mapreduce

发表了文章 2022-05-292022-05-29 10:45:34

[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（上）

在说UnsafeShuffleWriter 前，需要先细谈下Tungsten对内存管理的优化。当然这里就不展开讲了以防内容过于冗长。

Tim在路上 2022-05-292022-05-29 10:45:33

hashmap、jvm、存储、java、node.js

发表了文章 2022-05-272022-05-27 08:06:06

[SPARK][CORE] 面试问题之 SortShuffleWriter的实现详情

SortShuffleWriter 是最基础的ShuffleWriter, 当其他几个ShuffleWriter不满足条件，或存在mapSide的聚合时只能选择...

Tim在路上 2022-05-272022-05-27 08:06:06

缓存、数据结构、java、编程算法

发表了文章 2022-05-232022-05-23 08:51:05

[SPARK][CORE] 面试问题之 BypassMergeSortShuffleWriter的细节

BypassMergeSortShuffleWriter 就如其名，旁支的sort-baesd Shuffle, 他是采用Hash-style实现的Sort b...

Tim在路上 2022-05-232022-05-23 08:51:04

mapreduce

发表了文章 2022-05-202022-05-20 09:06:42

[SPARK][CORE] 面试问题之 Spark Shuffle概述

一提到shuffle, 我们犹如“谈虎色变”。shuffle是大数据中的性能杀手，其来源于大数据中的元老级的组件Hadoop。

Tim在路上 2022-05-202022-05-20 09:06:42

spark、linux、mapreduce、大数据

发表了文章 2022-05-202022-05-20 09:06:09

Spark netty RPC 通信原理

通信是分布式程序的血液和神经，就好比大脑发出的执行需要通过神经和需要才能传递到手脚进行执行。可见好的通信能力是分布式系统的重重之中。

Tim在路上 2022-05-202022-05-20 09:06:09

spark、scala、android、rpc

发表了文章 2022-03-232022-03-23 14:19:38

SparkConf 配置与传播

在spark分布式程序中，sparkConf 主要起着Spark程序进行资源配置，性能调优，功能开关，参数传递的能力。在Spark的Driver和Executo...

Tim在路上 2022-03-232022-03-23 14:19:38

spark、hashmap、hadoop、面向对象编程

发表了文章 2022-03-232022-03-23 14:19:13

Spark RDD 分布式弹性数据集

rdd是一个粗粒度的数据生成方式和流转迭代计算方式的描述。它可以通过稳定的存储器或者从其他RDD生成，它并不需要急着进行转换，只需要在特定的rdd进行一次性的数...

Tim在路上 2022-03-232022-03-23 14:19:13

大数据、node.js、分布式

发表了文章 2022-03-232022-03-23 14:18:50

算法：二叉树遍历类题目

树的遍历顺序是依赖于根节点的位置，前序遍历的顺序为根左右，中序遍历的顺序为左根右，后序遍历的顺序为左右根。除此以外还存在层次遍历。

Tim在路上 2022-03-232022-03-23 14:18:50

二叉树、编程算法

发表了文章 2022-03-232022-03-23 14:18:12

Spark架构模式与Flink的对比

Spark和Flink都属于流批一体的分布式计算引擎。Flink属于流处理框架，通过流来模拟批，Spark属于批处理框架，通过批来模拟流。其分别属于Lambda...

Tim在路上 2022-03-232022-03-23 14:18:12

flink、大数据、spark、windows、缓存

发表了文章 2022-03-232022-03-23 14:16:29

Spark 存储行动算子源码解析

从源码可以看出saveAsHadoopFile的输入参数有path, key类型，value类型，输出格式类型，hadoop配置，压缩类型。将输入的参数配置到...

Tim在路上 2022-03-232022-03-23 14:16:29

hadoop、存储

发表了文章 2022-03-232022-03-23 14:16:01

Spark 行动算子源码分析

action算子都是直接调用sc.runJob(this, func _), 在调用时将func传给分区执行，并在调用后，在Driver端对数据在执行自定义的函...

Tim在路上 2022-03-232022-03-23 14:16:01

mapreduce、android、文件存储

12 3 4 5 6 7 8...13 下一页

个人简介

暂未填写公司和职称
欢迎关注公众号 "Tim在路上" 欢迎关注知乎“天天来了”
spark 数据湖计算 DLC
北邮 | 计算机科学与技术
暂未填写个人网址
北京
加入社区时间：2020-08-03

个人成就

获得 573 次赞同
文章被阅读 351.6K 次

关注了：2关注者：28

Tim在路上

[Delta][SQL] Delta开源付费功能，最全分析ZOrder的源码实现流程

[LakeHouse] Delta Lake全部开源，聊聊Delta的实现架构

[LakeHouse] 数据湖之Iceberg一种开放的表格式

[SPARK][CORE] 面试问题之 3.2新的特性Push-based Shuffle源码解析

[SPARK][CORE] 面试问题之什么是 external shuffle service？

[SPARK][CORE] 面试问题之谈一谈Push-based shuffle

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（下）

[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（下）

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（上）

[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（上）

[SPARK][CORE] 面试问题之 SortShuffleWriter的实现详情

[SPARK][CORE] 面试问题之 BypassMergeSortShuffleWriter的细节

[SPARK][CORE] 面试问题之 Spark Shuffle概述

Spark netty RPC 通信原理

SparkConf 配置与传播

Spark RDD 分布式弹性数据集

算法：二叉树遍历类题目

Spark架构模式与Flink的对比

Spark 存储行动算子源码解析

Spark 行动算子源码分析

个人简介

个人成就

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Tim在路上

[Delta][SQL] Delta开源付费功能，最全分析ZOrder的源码实现流程

[LakeHouse] Delta Lake全部开源，聊聊Delta的实现架构

[LakeHouse] 数据湖之Iceberg一种开放的表格式

[SPARK][CORE] 面试问题之 3.2新的特性Push-based Shuffle源码解析

[SPARK][CORE] 面试问题之什么是 external shuffle service？

[SPARK][CORE] 面试问题之谈一谈Push-based shuffle

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节 （下）

[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（下）

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节 （上）

[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析（上）

[SPARK][CORE] 面试问题之 SortShuffleWriter的实现详情

[SPARK][CORE] 面试问题之 BypassMergeSortShuffleWriter的细节

[SPARK][CORE] 面试问题 之 Spark Shuffle概述

Spark netty RPC 通信原理

SparkConf 配置与传播

Spark RDD 分布式弹性数据集

算法：二叉树遍历类题目

Spark架构模式与Flink的对比

Spark 存储行动算子源码解析

Spark 行动算子源码分析

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（下）

[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节（上）

[SPARK][CORE] 面试问题之 Spark Shuffle概述