大数据成神之路-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏成员

638

文章

1402227

阅读量

321

订阅数

「Hudi系列」Hudi查询&写入&常见问题汇总

hive 大数据文件存储数据库 spark

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

王知无-import_bigdata

2022-06-05

6.3K0

卷起来了，Apache Flink 1.13.6 发布！

java api javascript 打包文件存储

Hi，我是王知无，一个大数据领域的原创作者。 Apache Flink 社区发布了 Flink 1.13 的另一个错误修复版本。

王知无-import_bigdata

2022-03-11

1.6K0

「Apache Hudi系列」核心概念与架构设计总结

文件存储 hbase TDSQL MySQL 版数据库大数据

Apache Hudi依赖 HDFS 做底层的存储，所以可以支撑非常大规模的数据存储。同时基于下面两个原语，Hudi可以解决流批一体的存储问题。

王知无-import_bigdata

2022-03-11

1.1K0

【Spark重点难点】你的代码跑起来谁说了算？(内存管理)

spark 存储文件存储缓存 jvm

这节课我们要讲的是Spark中的【内存模型】，也就是决定我们Spark代码运行所需要的资源信息。

王知无-import_bigdata

2021-12-08

7190

【Spark重点难点】你的数据存在哪了?

spark vr 视频解决方案 hashmap 文件存储数据结构

在之前的课中我们讲了Spark的RDD以及整个Spark系统中的一些关键角色：《【Spark重点难点】你从未深入理解的RDD和关键角色》。

王知无-import_bigdata

2021-12-07

1.4K0

我说Java基础重要，你不信？来试试这几个问题

文件存储 python sql flink 大数据

代码生成技术广泛应用于现代的数据库系统中。代码生成是将用户输入的表达式、查询、存储过程等现场编译成二进制代码再执行，相比解释执行的方式，运行效率要高很多。尤其是对于计算密集型查询、或频繁重复使用的计算过程，运用代码生成技术能达到数十倍的性能提升。

王知无-import_bigdata

2021-09-22

7400

Flink重点难点：内存模型与内存结构

flink 大数据 jvm 文件存储 java

Java 虚拟机在执行Java程序的过程中会把它在主存中管理的内存部分划分成多个区域，每个区域存放不同类型的数据。下图所示为java虚拟机运行的时候，主要的内存分区：

王知无-import_bigdata

2021-09-22

1.4K0

他来了他来了，Hadoop序列化和切片机制了解一下？

mapreduce 文件存储腾讯云测试服务

一个超大文件在HDFS上存储时，是以多个Block存储在不同的节点上，比如一个512M的文件，HDFS默认一个Block为128M，那么1G的文件分成4个Block存储在集群中4个节点上。

王知无-import_bigdata

2021-09-22

6510

浅谈大数据的过去、现在和未来

大数据数据湖数据分析文件存储存储

相信身处于大数据领域的读者多少都能感受到，大数据技术的应用场景正在发生影响深远的变化: 随着实时计算、Kubernetes 的崛起和 HTAP、流批一体的大趋势，之前相对独立的大数据技术正逐渐和传统的在线业务融合。关于该话题，笔者早已如鲠在喉，但因拖延症又犯迟迟没有动笔，最终借最近参加多项会议收获不少感悟的契机才能克服懒惰写下这片文章。

王知无-import_bigdata

2021-07-12

7400

最新Hive/Hadoop高频面试点小集合

hive 文件存储数据库大数据数据处理

如果其中有一张表为小表，直接使用map端join的方式（map端加载小表）进行聚合。

王知无-import_bigdata

2021-04-21

1.1K0

Upsert Kafka Connector - 让实时统计更简单

kafka 文件存储 flink 大数据数据库

在某些场景中，例如读取 compacted topic 或者输出（更新）聚合结果的时候，需要将 Kafka 消息记录的 key 当成主键处理，用来确定一条数据是应该作为插入、删除还是更新记录来处理。为了实现该功能，社区为 Kafka 专门新增了一个 upsert connector（upsert-kafka），该 connector 扩展自现有的 Kafka connector，工作在 upsert 模式（FLIP-149）下。新的 upsert-kafka connector 既可以作为 source 使用，也可以作为 sink 使用，并且提供了与现有的 kafka connector 相同的基本功能和持久性保证，因为两者之间复用了大部分代码。

王知无-import_bigdata

2021-03-25

3.8K0

大话 Druid 存储结构

存储编程算法文件存储数据结构

Apache Druid是一款优秀的OLAP引擎，众所周知数据存储格式对一款存储系统来说是最核心的组件，Druid的数据格式是自定义的，以此保证了在海量数据下的亚秒级查询。本文深入分析Druid V1版本数据存储格式，包括索引结构和数据在磁盘中的存储方式。在阅读本文之前希望您对Druid和数据存储有简单了解。

王知无-import_bigdata

2021-01-06

6030

打工人必备：Hive小文件合并与数据压缩

hive 文件存储存储大数据 hadoop

Hive仓库表数据最终是存储在HDFS上，由于Hadoop的特性，对大文件的处理非常高效。而且大文件可以减少文件元数据信息，减轻NameNode的存储压力。但是在数据仓库中，越是上层的表汇总程度就越高，数据量也就越小，而且这些表通常会有日期分区，随着时间的推移，HDFS的文件数目就会逐步增加。

王知无-import_bigdata

2020-12-18

2.4K0

Parquet文件存储格式详细解析

存储文件存储数据库大数据数据结构

Parquet仅仅是一种存储格式，它是语言、平台无关的，并且不需要和任何一种数据处理框架绑定，目前能够和Parquet适配的组件包括下面这些，可以看出基本上通常使用的查询引擎和计算框架都已适配，并且可以很方便的将其它序列化工具生成的数据转换成Parquet格式。

王知无-import_bigdata

2020-12-08

5.3K0

Hive - ORC 文件存储格式详细解析

大数据数据结构 hive 文件存储编程算法

ORC的全称是(Optimized Row Columnar)，ORC文件格式是一种Hadoop生态圈中的列式存储格式，它的产生早在2013年初，最初产生自Apache Hive，用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似，它并不是一个单纯的列式存储格式，仍然是首先根据行组分割整个表，在每一个行组内进行按列存储。ORC文件是自描述的，它的元数据使用Protocol Buffers序列化，并且文件中的数据尽可能的压缩以降低存储空间的消耗，目前也被Spark SQL、Presto等查询引擎支持，但是Impala对于ORC目前没有支持，仍然使用Parquet作为主要的列式存储格式。2015年ORC项目被Apache项目基金会提升为Apache顶级项目。ORC具有以下一些优势:

王知无-import_bigdata

2020-12-08

12.3K0

实战案例分享：根据 JVM crash 日志定位和分析问题

jvm 文件存储面向对象编程

下面是一份crash report, 下面是截取了crash report的部分，用于分析：

王知无-import_bigdata

2020-11-06

2.4K0

数据湖 | Apache Hudi 设计与架构最强解读

文件存储数据湖数据库 sql apache

Apache Hudi(简称：Hudi)允许您在现有的hadoop兼容存储之上存储大量数据，同时提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

王知无-import_bigdata

2020-11-06

3.4K0

Hadoop支持Lzo压缩配置及案例

hadoop node.js 大数据文件存储打包

1）hadoop本身并不支持lzo压缩，故需要使用twitter提供的hadoop-lzo开源组件。hadoop-lzo需依赖hadoop和lzo进行编译，编译步骤如下。 2）将编译好后的hadoop-lzo-0.4.20.jar 放入hadoop-2.7.2/share/hadoop/common/

王知无-import_bigdata

2020-09-08

2K0

Kafka工作流程及文件存储机制

node.js kafka 文件存储

Kafka中消息是以topic进行分类的，生产者生产消息，消费者消费消息，都是面向topic的。

王知无-import_bigdata

2020-07-22

6890

浅谈Linux cgroup机制与YARN的CPU资源隔离

文件存储 yarn bash bash 指令 linux

我们在生产环境中经常可以发现有计算密集型任务争用NodeManager的CPU，以及个别Container消耗太多CPU资源导致其他系统服务抖动的情况。好在Hadoop 2.2版本之后，YARN通过利用Linux系统的cgroup机制支持了CPU资源隔离。本文先简单看看cgroup，然后分析一下YARN的CPU资源隔离的方案。

王知无-import_bigdata

2020-06-28

2.9K1

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态