首页
学习
活动
专区
工具
TVP
发布

暴走大数据

专栏作者
298
文章
535303
阅读量
99
订阅数
Apache Hudi压缩Compaction源码解析
了解过hudi的新手或者专家都知道,hudi不管是COW还是MOR表,其文件还是存储在hdfs上。因为下来介绍我在学习hudi压缩的一些东西,所以下方就以MOR表文件做下介绍。下方会由浅入深尝试说明压缩计划和压缩策略等等之间的关系。
大数据真好玩
2022-12-05
1.4K0
Hive重点难点:Hive原理&优化&面试(下)
Map在读取数据时,先将数据拆分成若干数据,并读取到Map方法中被处理。数据在输出的时候,被分成若干分区并写入内存缓存(buffer)中,内存缓存被数据填充到一定程度会溢出到磁盘并排序,当Map执行完后会将一个机器上输出的临时文件进行归并存入到HDFS中。
大数据真好玩
2021-10-25
1.4K0
Hadoop重点难点:Hadoop IO/压缩/序列化
序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。
大数据真好玩
2021-10-12
9200
Hadoop重点难点:可靠性/Failover/Shuffle
对Map的结果进行排序并传输到Reduce进行处理 Map的结果并不是直接存放到硬盘,而是利用缓存做一些预排序处理 Map会调用Combiner,压缩,按key进行分区、排序等,尽量减少结果的大小 每个Map完成后都会通知Task,然后Reduce就可以进行处理。
大数据真好玩
2021-10-12
4880
Apache Spark 内存管理(堆内/堆外)详解
本文旨在梳理出Spark内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。
大数据真好玩
2021-09-18
1.1K0
Hive文件存储格式和Hive数据压缩小总结
HiveQL语句最终都将转换成为hadoop中的MapReduce job,而MapReduce job可以有对处理的数据进行压缩。
大数据真好玩
2021-09-18
1K0
kafka key的作用一探究竟,详解Kafka生产者和消费者的工作原理!
每个分区(Partition)都是有序的(所以每一个Partition内部都是有序的),不变的记录序列,这些记录连续地附加到结构化的提交日志中。分区中的每个记录均分配有一个称为偏移的顺序ID号,该ID 唯一地标识分区中的每个记录。
大数据真好玩
2021-04-21
10.6K0
【大数据哔哔集20210123】别问,问就是Kafka高可靠
Kafka的高可靠性的保障来源于其健壮的副本(replication)策略。通过调节其副本相关参数,可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供Partition级别的复制,replication数量可以配置文件(default.replication.refactor)中或者创建Topic的时候指定。
大数据真好玩
2021-02-23
3610
【大数据哔哔集20210110】后起之秀ClickHouse的优缺点和核心特性
ClickHouse全称是Click Stream,Data Warehouse,简称ClickHouse就是基于页面的点击事件流,面向数据仓库进行OLAP分析。ClickHouse是一款开源的数据分析数据库,由战斗民族俄罗斯Yandex公司研发的,Yandex是做搜索引擎的,就类似与Google,百度等。
大数据真好玩
2021-01-26
2.3K0
代达罗斯之殇-大数据领域小文件问题解决攻略
海量小文件问题是工业界和学术界公认的难题,大数据领域中的小文件问题,也是一个非常棘手的问题,仅次于数据倾斜问题,对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案,给大家还原一个大数据系统中小文件问题的系统性解决方案。
大数据真好玩
2021-01-26
1.3K0
【大数据哔哔集20210111】HDFS中的常用压缩算法及区别
sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。可以把SequenceFile当做是一个容器,把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。SequenceFile文件并不按照其存储的Key进行排序存储,SequenceFile的内部类Writer提供了append功能。SequenceFile中的Key和Value可以是任意类型Writable或者是自定义Writable。
大数据真好玩
2021-01-21
9370
SparkRDD转DataSet/DataFrame的一个深坑
原需求:希望在map函数中将每一个rdd转为DataSet或者DataFrame。
大数据真好玩
2019-10-25
7250
全网第一 | Flink学习面试灵魂40问答案!
Flink核心是一个流式的数据流执行引擎,其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎,Flink提供了诸多更高抽象层的API以便用户编写分布式任务:
大数据真好玩
2019-09-17
10.3K0
为什么我们选择parquet做数据存储格式
来源:https://www.cnblogs.com/piaolingzxh/p/5469964.html
大数据真好玩
2019-09-17
4.6K0
干货 | Flink Connector 深度解析
作者介绍:董亭亭,快手大数据架构实时计算引擎团队负责人。目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设。2013 年毕业于大连理工大学,曾就职于奇虎 360、58 集团。主要研究领域包括:分布式计算、调度系统、分布式存储等系统。
大数据真好玩
2019-09-12
2K0
聊聊分布式系统架构
一、分布式系统的经典基础理论 1、分布式系统设计的两大思路:中心化和去中心化 中心化:中心化的设计思想在自然界和人类生活中是如此的普遍和自然,它的设计思想也很简单,分布式集群中的节点按照角色分工,可以分为两种角色--“领导”和“干活的”,中心化的一个思路就是“领导”通常分发任务并监督“干活的”,谁空闲了就给它安排任务,谁病倒了就一脚踢出去,然后把它的任务分给其他人;中心化的另一个思路是领导只负责生成任务而不再指派任务,由每个“干活的”自发去领任务。 去中心化:全球IP互联网就是一个典型的去中心化的分布式控
大数据真好玩
2019-09-04
1.2K0
Spark Core源码精读计划24 | StaticMemoryManager——静态内存管理机制
在上一篇文章的最后,我们阅读了内存管理器MemoryManager抽象类的源码,并且提到它有两种实现:静态内存管理器StaticMemoryManager、统一内存管理器UnifiedMemoryManager。其中,StaticMemoryManager是随着Spark诞生就存在的,UnifiedMemoryManager则是从Spark 1.6版本开始服役,并且后者是目前Spark Core中的默认内存管理器,前者已经标记为过时。虽然StaticMemoryManager已经不怎么用了,但它的逻辑相对简单,适合用来开胃,本文先来研究它。看官也可以先复习一下上篇文章关于MemoryManager的部分。
大数据真好玩
2019-08-21
4310
Spark Core源码精读计划26 | 内存存储MemoryStore的具体实现
前面我们已经对内存池MemoryPool、内存管理器MemoryManager有了比较深入的了解,接下来要介绍的就是MemoryStore,它负责Spark内存存储的具体事项,将内存管理机制与存储块联系起来。本文先介绍与MemoryStore相关的MemoryEntry,然后详细分析MemoryStore的主要源码。
大数据真好玩
2019-08-21
7090
Spark Core源码精读计划27 | 磁盘块管理器DiskBlockManager
我们前面用4篇文章的时间讲解了Spark存储子系统中的内存部分,其内容相当多,包括内存池MemoryPool、内存管理器MemoryManager(包含两种实现:静态内存管理器StaticMemoryManager和统一内存管理器UnifiedMemoryManager)、内存项MemoryEntry、内存存储MemoryStore。相对而言,磁盘部分的实现就比较直接而简单一些,主要包含两个组件:磁盘块管理器DiskBlockManager、磁盘存储DiskStore。它们的内容都不是特别复杂,本文就研究一下DiskBlockManager。
大数据真好玩
2019-08-21
7640
Spark Core源码精读计划18 | 与RDD的重逢
在前面的17篇文章中,我们对以SparkContext和SparkEnv为中心展开的Spark Core底层支撑组件有了比较深入的理解,当然有一些重要的组件,会随着整个系列的进行详细讲解到。按照计划,我们本应开始看Spark的存储系统结构,但是不着急,我们先花2~3篇文章的时间来重新认识一下我们的老朋友——RDD。它不仅与存储息息相关,也是Spark任务调度和计算的主要对象,现在打好基础是非常有益的。
大数据真好玩
2019-08-19
6940
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档