腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

暴走大数据

专栏作者

298

文章

535303

阅读量

99

订阅数

Apache Hudi压缩Compaction源码解析

了解过hudi的新手或者专家都知道，hudi不管是COW还是MOR表，其文件还是存储在hdfs上。因为下来介绍我在学习hudi压缩的一些东西，所以下方就以MOR表文件做下介绍。下方会由浅入深尝试说明压缩计划和压缩策略等等之间的关系。

大数据真好玩

2022-12-05

1.4K0

Hive重点难点：Hive原理&优化&面试(下)

spark sql 数据库存储文件存储

Map在读取数据时，先将数据拆分成若干数据，并读取到Map方法中被处理。数据在输出的时候，被分成若干分区并写入内存缓存（buffer）中，内存缓存被数据填充到一定程度会溢出到磁盘并排序，当Map执行完后会将一个机器上输出的临时文件进行归并存入到HDFS中。

大数据真好玩

2021-10-25

1.4K0

Hadoop重点难点：Hadoop IO/压缩/序列化

node.js hadoop 文件存储存储数据处理

序列化是指将结构化对象转化为字节流以便在网络上传输或写到磁盘进行永久存储的过程。反序列化是指将字节流转回结构化对象的逆过程。

大数据真好玩

2021-10-12

9200

Hadoop重点难点：可靠性/Failover/Shuffle

mapreduce 大数据文件存储

对Map的结果进行排序并传输到Reduce进行处理 Map的结果并不是直接存放到硬盘,而是利用缓存做一些预排序处理 Map会调用Combiner，压缩，按key进行分区、排序等，尽量减少结果的大小每个Map完成后都会通知Task，然后Reduce就可以进行处理。

大数据真好玩

2021-10-12

4880

Apache Spark 内存管理(堆内/堆外)详解

文件存储存储 jvm 缓存 spark

本文旨在梳理出Spark内存管理的脉络，抛砖引玉，引出读者对这个话题的深入探讨。本文中阐述的原理基于Spark 2.1版本，阅读本文需要读者有一定的Spark和Java基础，了解RDD、Shuffle、JVM等相关概念。

大数据真好玩

2021-09-18

1.1K0

Hive文件存储格式和Hive数据压缩小总结

存储 hadoop 文件存储 hive mapreduce

HiveQL语句最终都将转换成为hadoop中的MapReduce job,而MapReduce job可以有对处理的数据进行压缩。

大数据真好玩

2021-09-18

1K0

kafka key的作用一探究竟，详解Kafka生产者和消费者的工作原理！

kafka 文件存储

每个分区（Partition）都是有序的(所以每一个Partition内部都是有序的)，不变的记录序列，这些记录连续地附加到结构化的提交日志中。分区中的每个记录均分配有一个称为偏移的顺序ID号，该ID 唯一地标识分区中的每个记录。

大数据真好玩

2021-04-21

10.6K0

【大数据哔哔集20210123】别问，问就是Kafka高可靠

kafka 文件存储 zookeeper

Kafka的高可靠性的保障来源于其健壮的副本（replication）策略。通过调节其副本相关参数，可以使得Kafka在性能和可靠性之间运转的游刃有余。Kafka从0.8.x版本开始提供Partition级别的复制，replication数量可以配置文件（default.replication.refactor）中或者创建Topic的时候指定。

大数据真好玩

2021-02-23

3610

【大数据哔哔集20210110】后起之秀ClickHouse的优缺点和核心特性

搜索引擎文件存储数据库 sql 分布式

ClickHouse全称是Click Stream,Data Warehouse，简称ClickHouse就是基于页面的点击事件流，面向数据仓库进行OLAP分析。ClickHouse是一款开源的数据分析数据库，由战斗民族俄罗斯Yandex公司研发的，Yandex是做搜索引擎的，就类似与Google，百度等。

大数据真好玩

2021-01-26

2.3K0

代达罗斯之殇-大数据领域小文件问题解决攻略

文件存储 hive hadoop 大数据 spark

海量小文件问题是工业界和学术界公认的难题，大数据领域中的小文件问题，也是一个非常棘手的问题，仅次于数据倾斜问题，对于时间和性能能都是毁灭性打击。本文参考网上对于小文件问题的定义和常见系统的解决方案，给大家还原一个大数据系统中小文件问题的系统性解决方案。

大数据真好玩

2021-01-26

1.3K0

【大数据哔哔集20210111】HDFS中的常用压缩算法及区别

hadoop mapreduce javascript hive 文件存储

sequenceFile文件是Hadoop用来存储二进制形式的[Key,Value]对而设计的一种平面文件(Flat File)。可以把SequenceFile当做是一个容器，把所有的文件打包到SequenceFile类中可以高效的对小文件进行存储和处理。SequenceFile文件并不按照其存储的Key进行排序存储，SequenceFile的内部类Writer提供了append功能。SequenceFile中的Key和Value可以是任意类型Writable或者是自定义Writable。

大数据真好玩

2021-01-21

9370

SparkRDD转DataSet/DataFrame的一个深坑

文件存储 spark 编程算法 sql java

原需求：希望在map函数中将每一个rdd转为DataSet或者DataFrame。

大数据真好玩

2019-10-25

7250

全网第一 | Flink学习面试灵魂40问答案！

https 网络安全 api 文件存储 java

Flink核心是一个流式的数据流执行引擎，其针对数据流的分布式计算提供了数据分布、数据通信以及容错机制等功能。基于流执行引擎，Flink提供了诸多更高抽象层的API以便用户编写分布式任务：

大数据真好玩

2019-09-17

10.3K0

为什么我们选择parquet做数据存储格式

spark 文件存储存储大数据

来源:https://www.cnblogs.com/piaolingzxh/p/5469964.html

大数据真好玩

2019-09-17

4.6K0

干货 | Flink Connector 深度解析

kafka 大数据文件存储 socket编程

作者介绍：董亭亭，快手大数据架构实时计算引擎团队负责人。目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设。2013 年毕业于大连理工大学，曾就职于奇虎 360、58 集团。主要研究领域包括：分布式计算、调度系统、分布式存储等系统。

大数据真好玩

2019-09-12

2K0

聊聊分布式系统架构

rpc 分布式开源缓存文件存储

一、分布式系统的经典基础理论 1、分布式系统设计的两大思路：中心化和去中心化中心化：中心化的设计思想在自然界和人类生活中是如此的普遍和自然，它的设计思想也很简单，分布式集群中的节点按照角色分工，可以分为两种角色--“领导”和“干活的”，中心化的一个思路就是“领导”通常分发任务并监督“干活的”，谁空闲了就给它安排任务，谁病倒了就一脚踢出去，然后把它的任务分给其他人；中心化的另一个思路是领导只负责生成任务而不再指派任务，由每个“干活的”自发去领任务。去中心化：全球IP互联网就是一个典型的去中心化的分布式控

大数据真好玩

2019-09-04

1.2K0

Spark Core源码精读计划24 | StaticMemoryManager——静态内存管理机制

spark 存储文件存储 bash bash 指令

在上一篇文章的最后，我们阅读了内存管理器MemoryManager抽象类的源码，并且提到它有两种实现：静态内存管理器StaticMemoryManager、统一内存管理器UnifiedMemoryManager。其中，StaticMemoryManager是随着Spark诞生就存在的，UnifiedMemoryManager则是从Spark 1.6版本开始服役，并且后者是目前Spark Core中的默认内存管理器，前者已经标记为过时。虽然StaticMemoryManager已经不怎么用了，但它的逻辑相对简单，适合用来开胃，本文先来研究它。看官也可以先复习一下上篇文章关于MemoryManager的部分。

大数据真好玩

2019-08-21

4310

Spark Core源码精读计划26 | 内存存储MemoryStore的具体实现

存储文件存储 java 编程算法

前面我们已经对内存池MemoryPool、内存管理器MemoryManager有了比较深入的了解，接下来要介绍的就是MemoryStore，它负责Spark内存存储的具体事项，将内存管理机制与存储块联系起来。本文先介绍与MemoryStore相关的MemoryEntry，然后详细分析MemoryStore的主要源码。

大数据真好玩

2019-08-21

7090

Spark Core源码精读计划27 | 磁盘块管理器DiskBlockManager

存储 spark 文件存储编程算法

我们前面用4篇文章的时间讲解了Spark存储子系统中的内存部分，其内容相当多，包括内存池MemoryPool、内存管理器MemoryManager（包含两种实现：静态内存管理器StaticMemoryManager和统一内存管理器UnifiedMemoryManager）、内存项MemoryEntry、内存存储MemoryStore。相对而言，磁盘部分的实现就比较直接而简单一些，主要包含两个组件：磁盘块管理器DiskBlockManager、磁盘存储DiskStore。它们的内容都不是特别复杂，本文就研究一下DiskBlockManager。

大数据真好玩

2019-08-21

7640

Spark Core源码精读计划18 | 与RDD的重逢

spark javascript 文件存储

在前面的17篇文章中，我们对以SparkContext和SparkEnv为中心展开的Spark Core底层支撑组件有了比较深入的理解，当然有一些重要的组件，会随着整个系列的进行详细讲解到。按照计划，我们本应开始看Spark的存储系统结构，但是不着急，我们先花2~3篇文章的时间来重新认识一下我们的老朋友——RDD。它不仅与存储息息相关，也是Spark任务调度和计算的主要对象，现在打好基础是非常有益的。

大数据真好玩

2019-08-19

6940

点击加载更多

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态