大数据成神之路-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

大数据成神之路

专注大数据领域的一切技术~

专栏成员

638

文章

1402815

阅读量

321

订阅数

Paimon新版本核心特性和生产实践解读

缓存基础开发数据存储

最近Apche Paimon发布了最新版本0.7.0，在这个版本中，Paimon对一些新特性进行了增强。

王知无-import_bigdata

2024-03-12

3440

Apache Paimon核心原理和Flink应用进阶

apache 存储 flink 数据原理

这是一篇较为完整的介绍Apache Paimon和Flink进阶应用的文章，你最好收藏一波。

王知无-import_bigdata

2023-12-12

1.4K0

字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践

apache 存储架构实践数据

目前主流的数仓架构—— Lambda 架构，能够通过实时和离线两套链路、两套代码同时兼容实时数据与离线数据，做到通过批处理提供全面及准确的数据、通过流处理提供低延迟的数据，达到平衡延迟、吞吐量和容错性的目的。在实际应用中，为满足下游的即席查询，批处理和流处理的结果会进行合并。

王知无-import_bigdata

2023-09-18

5880

StreamingWarehouse的一些思考和未来趋势

存储实时数仓开发框架数据

以Hudi、Iceberg、Paimon这几个框架为例，它们支持高效的数据流/批读写、数据回溯以及数据更新。具备一些传统的实时和离线数仓不具备的特性，主要有几个方面：

王知无-import_bigdata

2023-09-06

2530

Doris2.0时代的一些机遇和挑战！

存储开发数据系统优化

上个周五的时候，Doris官宣了2.0版本，除了在性能上的大幅提升，还有一些特性需要大家特别关注。

王知无-import_bigdata

2023-09-06

6280

基于Doris实时数据开发的一些注意事项

存储运维开发数据性能

最近Doris的发展大家是有目共睹的。例如冷热分离等新特性的持续增加。使得Doris在易用和成本上都有大幅提升。

王知无-import_bigdata

2023-09-06

3880

Flink重点难点：状态(Checkpoint和Savepoint)容错与两阶段提交

存储 flink 后端内存数据

在 Flink 的框架中，进行有状态的计算是 Flink 最重要的特性之一。所谓的状态，其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态，并且针对状态的持久化还提供了专门的机制和状态管理器。

王知无-import_bigdata

2023-05-29

7800

火山引擎DataLeap：3个关键步骤，复制字节跳动一站式数据治理经验

存储产品服务事件数据

DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品，帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设，降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。

王知无-import_bigdata

2023-04-07

9690

Flink1.16新特性图文解析

flink 大数据 hive 存储迁移

sql gateway这个功能超级强大，支持多租户，协议插件化，兼容hive生态，以后flink流批作业都可以通过sql gateway提交到集群了。

王知无-import_bigdata

2023-02-01

9540

「硬刚Doris系列」Apache Doris 架构原理及核心特性解读

分布式 android 存储

Doris主要分为FE和BE两个组件，FE主要负责查询的编译，分发和元数据管理（基于内存，类似HDFS NN）；BE主要负责查询的执行和存储系统

王知无-import_bigdata

2022-06-05

5.6K0

「ClickHouse系列」ClickHouse之MergeTree原理

MergeTree引擎以及隶属于MergeTree引擎族的所有引擎是Clickhouse表引擎中最重要, 最强大的引擎.

王知无-import_bigdata

2022-04-13

2.8K0

「Clickhouse系列」分布式表&本地表详解

分布式 zookeeper 数据库 sql 存储

一个逻辑上的表, 可以理解为数据库中的视图, 一般查询都查询分布式表. 分布式表引擎会将我们的查询请求路由本地表进行查询, 然后进行汇总最终返回给用户.

王知无-import_bigdata

2022-04-13

7.6K0

究极缝合怪 | Pulsar核心概念和特性解读

Pulsar 是一个用于服务器到服务器的消息系统，具有多租户、高性能等优势。Pulsar 最初由 Yahoo 开发，目前由 Apache 软件基金会管理。

王知无-import_bigdata

2022-03-11

1.8K0

【Spark重点难点】你的代码跑起来谁说了算？(内存管理)

spark 存储文件存储缓存 jvm

这节课我们要讲的是Spark中的【内存模型】，也就是决定我们Spark代码运行所需要的资源信息。

王知无-import_bigdata

2021-12-08

7190

基于Hive数据仓库的标签画像实战

数据库日志数据 sql hive 存储

建立用户画像首先需要建立数据仓库，用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具，依赖于HDFS存储数据，提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库，存储标签和用户特征库等相关数据。

王知无-import_bigdata

2021-11-30

9630

大数据之Hadoop企业级生产调优手册(下)

大数据存储 xml hadoop mapreduce

注：演示纠删码和异构存储需要一共 5台虚拟机。尽量拿另外一套集群。提前准备 5台服务器的集群。

王知无-import_bigdata

2021-10-13

5940

昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)

javascript vr 视频解决方案 spark 大数据存储

OK，我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢？

王知无-import_bigdata

2021-10-13

6520

数据湖YYDS！ Flink+IceBerg实时数据湖实践

flink 数据湖数据库 sql 存储

互联网技术发展的当下，数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展，无论是实时计算还是离线计算、无论是数据仓库还是数据中台，都已经深入各大公司的各个业务。

王知无-import_bigdata

2021-10-13

3.9K0

打造大数据平台底层计算存储引擎 | Apache孵化器迎来Linkis！

存储 jdbc hive flink 大数据

微众银行开源项目Linkis正式通过Apache软件基金会（ASF）的投票表决，全票通过进入ASF孵化器！

王知无-import_bigdata

2021-09-22

1.3K0

ElasticSearch 亿级数据检索深度优化

es lucene/solr 存储腾讯云测试服务

数据平台已迭代三个版本，从头开始遇到很多常见的难题，终于有片段时间整理一些已完善的文档，在此分享以供所需朋友的实现参考，少走些弯路，在此篇幅中偏重于ES的优化。

王知无-import_bigdata

2021-09-22

7090

点击加载更多

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态