首页
学习
活动
专区
工具
TVP
发布

后台技术底层理解

专栏作者
257
文章
237210
阅读量
28
订阅数
[Delta][SQL] Delta开源付费功能,最全分析ZOrder的源码实现流程
通常为提高数据处理的效率,计算引擎要实现谓词的下推,而存储引擎可以根据下推的过滤条件尽可能的跳过无关数据或文件。不管是Hudi、Iceberg还是Delta都实现了基于min-max索引的Data-skiping技术。它指的是在元数据中都记录这数据文件中的每一列的最小值和最大值,通过查询中列上的谓词来决定当前的数据文件是否可能包含满足谓词的任何records,是否可以跳过读取当前数据文件。
Tim在路上
2022-09-07
1.1K0
[LakeHouse] Delta Lake全部开源,聊聊Delta的实现架构
刚刚结束的Data + AI summit上,Databricks宣布将Delta Lake全部开源。
Tim在路上
2022-09-01
9030
[LakeHouse] 数据湖之Iceberg一种开放的表格式
Iceberg项目2017年由Netflix发起, 它是在2018年被Netflix捐赠给Apache基金会的项目。在2021年Iceberg的作者Ryan Blue创建Tabular公司,发起以Apache Iceberg为核心构建一种新型数据平台。
Tim在路上
2022-06-19
1.1K0
[SPARK][CORE] 面试问题之 3.2新的特性Push-based Shuffle源码解析
Spark 3.2为spark shuffle带来了重大的改变,其中新增了push-based shuffle机制。但其实在push-based shuffle 之前,业界也有人提出了remote shuffle service的实践,不过由于它们是依赖于外部组件实现的所以一直不被社区所接收。
Tim在路上
2022-06-15
6940
[SPARK][CORE] 面试问题之什么是 external shuffle service?
在讨论external shuffle service的具体实现之前,我们先来回顾下spark shuffle的大概过程。
Tim在路上
2022-06-12
1.2K0
[SPARK][CORE] 面试问题之谈一谈Push-based shuffle
在Spark3.2中引入了领英设计的一种新的shuffle方案,今天我们先来了解下其大致的设计原理,之后会再分析其具体的代码实现。
Tim在路上
2022-06-12
1.4K0
[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节 (下)
在Spark中shuffleWriter有三种实现,分别是bypassMergeSortShuffleWriter, UnsafeShuffleWriter和SortShuffleWriter。但是shuffleReader却只有一种实现BlockStoreShuffleReader 。
Tim在路上
2022-06-08
3880
[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析(下)
Unsafe Shuffle的实现在一定程度上是Tungsten内存管理优化的的主要应用场景。其实现过程实际上和SortShuffleWriter是类似的,但是其中维护和执行的数据结构是不一样的。
Tim在路上
2022-06-05
4711
[SPARK][CORE] 面试问题之 Shuffle reader 的细枝末节 (上)
之前我们已经了解了shuffle writer的详细过程,那么生成文件后会发生什么呢?以及它们是如何被读取呢?读取是内存的操作吗?这些问题也随之产生,那么今天我们将先来了解了shuffle reader的细枝末节。
Tim在路上
2022-06-05
3640
[SPARK][CORE] 面试问题之UnsafeShuffleWriter流程解析(上)
在说UnsafeShuffleWriter 前,需要先细谈下Tungsten对内存管理的优化。当然这里就不展开讲了以防内容过于冗长。
Tim在路上
2022-05-29
2890
[SPARK][CORE] 面试问题之 SortShuffleWriter的实现详情
SortShuffleWriter 是最基础的ShuffleWriter, 当其他几个ShuffleWriter不满足条件,或存在mapSide的聚合时只能选择SortShuffleWriter,它是支持最全面的兜底ShuffleWriter。
Tim在路上
2022-05-27
3190
[SPARK][CORE] 面试问题之 BypassMergeSortShuffleWriter的细节
BypassMergeSortShuffleWriter 就如其名,旁支的sort-baesd Shuffle, 他是采用Hash-style实现的Sort based Shuffle。在map阶段records会按分区写入不同的文件, 一个分区一个文件。然后链接这些分区文件形成一个output文件,并生成其index。reducer通过IndexShuffleBlockResolver 查找消费输出文件的不同分区。
Tim在路上
2022-05-23
2280
[SPARK][CORE] 面试问题 之 Spark Shuffle概述
一提到shuffle, 我们犹如“谈虎色变”。shuffle是大数据中的性能杀手,其来源于大数据中的元老级的组件Hadoop。
Tim在路上
2022-05-20
4890
Spark netty RPC 通信原理
通信是分布式程序的血液和神经,就好比大脑发出的执行需要通过神经和需要才能传递到手脚进行执行。可见好的通信能力是分布式系统的重重之中。
Tim在路上
2022-05-20
8480
SparkConf 配置与传播
在spark分布式程序中,sparkConf 主要起着Spark程序进行资源配置,性能调优,功能开关,参数传递的能力。在Spark的Driver和Executor中都存在着SparkConf。
Tim在路上
2022-03-23
2050
Spark RDD 分布式弹性数据集
rdd是一个粗粒度的数据生成方式和流转迭代计算方式的描述。它可以通过稳定的存储器或者从其他RDD生成,它并不需要急着进行转换,只需要在特定的rdd进行一次性的数据的迭代流转。rdd记录着自己的依赖关系,以防在数据丢失时可以通过“血缘”关系再次生成数据。用户也可以自己选择在经常重用的rdd进行数据落地,放置丢失后重做。
Tim在路上
2022-03-23
3420
算法:二叉树遍历类题目
树的遍历顺序是依赖于 根 节点的位置,前序遍历的顺序为 根左右,中序遍历的顺序为 左根右,后序遍历的顺序为 左右根。除此以外还存在层次遍历。
Tim在路上
2022-03-23
2180
Spark架构模式与Flink的对比
Spark和Flink都属于流批一体的分布式计算引擎。Flink属于流处理框架,通过流来模拟批,Spark属于批处理框架,通过批来模拟流。其分别属于Lambda架构和Dataflow架构。
Tim在路上
2022-03-23
6810
Spark 存储行动算子源码解析
从源码可以看出saveAsHadoopFile的输入参数有path, key类型,value类型, 输出格式类型,hadoop配置,压缩类型。将输入的参数配置到JobConf中后,调用saveAsHadoopDataset。
Tim在路上
2022-03-23
2921
Spark 行动算子源码分析
action算子都是直接调用sc.runJob(this, func _), 在调用时将func传给分区执行,并在调用后,在Driver端对数据在执行自定义的函数。
Tim在路上
2022-03-23
2170
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档