首页
学习
活动
专区
工具
TVP
发布

大数据成神之路

专注大数据领域的一切技术~
专栏成员
638
文章
1402815
阅读量
321
订阅数
Paimon新版本核心特性和生产实践解读
最近Apche Paimon发布了最新版本0.7.0,在这个版本中,Paimon对一些新特性进行了增强。
王知无-import_bigdata
2024-03-12
3440
Apache Paimon核心原理和Flink应用进阶
这是一篇较为完整的介绍Apache Paimon和Flink进阶应用的文章,你最好收藏一波。
王知无-import_bigdata
2023-12-12
1.4K0
字节跳动基于 Apache Hudi 的湖仓一体方案及应用实践
目前主流的数仓架构—— Lambda 架构,能够通过实时和离线两套链路、两套代码同时兼容实时数据与离线数据,做到通过批处理提供全面及准确的数据、通过流处理提供低延迟的数据,达到平衡延迟、吞吐量和容错性的目的。在实际应用中,为满足下游的即席查询,批处理和流处理的结果会进行合并。
王知无-import_bigdata
2023-09-18
5880
StreamingWarehouse的一些思考和未来趋势
以Hudi、Iceberg、Paimon这几个框架为例,它们支持高效的数据流/批读写、数据回溯以及数据更新。具备一些传统的实时和离线数仓不具备的特性,主要有几个方面:
王知无-import_bigdata
2023-09-06
2530
Doris2.0时代的一些机遇和挑战!
上个周五的时候,Doris官宣了2.0版本,除了在性能上的大幅提升,还有一些特性需要大家特别关注。
王知无-import_bigdata
2023-09-06
6280
基于Doris实时数据开发的一些注意事项
最近Doris的发展大家是有目共睹的。例如冷热分离等新特性的持续增加。使得Doris在易用和成本上都有大幅提升。
王知无-import_bigdata
2023-09-06
3880
Flink重点难点:状态(Checkpoint和Savepoint)容错与两阶段提交
在 Flink 的框架中,进行有状态的计算是 Flink 最重要的特性之一。所谓的状态,其实指的是 Flink 程序的中间计算结果。Flink 支持了不同类型的状态,并且针对状态的持久化还提供了专门的机制和状态管理器。
王知无-import_bigdata
2023-05-29
7800
火山引擎DataLeap:3个关键步骤,复制字节跳动一站式数据治理经验
DataLeap是火山引擎数智平台VeDI旗下的大数据研发治理套件产品,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。
王知无-import_bigdata
2023-04-07
9690
Flink1.16新特性图文解析
sql gateway这个功能超级强大,支持多租户,协议插件化,兼容hive生态,以后flink流批作业都可以通过sql gateway提交到集群了。
王知无-import_bigdata
2023-02-01
9540
「硬刚Doris系列」Apache Doris 架构原理及核心特性解读
Doris主要分为FE和BE两个组件,FE主要负责查询的编译,分发和元数据管理(基于内存,类似HDFS NN);BE主要负责查询的执行和存储系统
王知无-import_bigdata
2022-06-05
5.6K0
「ClickHouse系列」ClickHouse之MergeTree原理
MergeTree引擎以及隶属于MergeTree引擎族的所有引擎是Clickhouse表引擎中最重要, 最强大的引擎.
王知无-import_bigdata
2022-04-13
2.8K0
「Clickhouse系列」分布式表&本地表详解
一个逻辑上的表, 可以理解为数据库中的视图, 一般查询都查询分布式表. 分布式表引擎会将我们的查询请求路由本地表进行查询, 然后进行汇总最终返回给用户.
王知无-import_bigdata
2022-04-13
7.6K0
究极缝合怪 | Pulsar核心概念和特性解读
Pulsar 是一个用于服务器到服务器的消息系统,具有多租户、高性能等优势。Pulsar 最初由 Yahoo 开发,目前由 Apache 软件基金会管理。
王知无-import_bigdata
2022-03-11
1.8K0
【Spark重点难点】你的代码跑起来谁说了算?(内存管理)
这节课我们要讲的是Spark中的 【内存模型】,也就是决定我们Spark代码运行所需要的资源信息。
王知无-import_bigdata
2021-12-08
7190
基于Hive数据仓库的标签画像实战
建立用户画像首先需要建立数据仓库,用于存储用户标签数据。Hive是基于Hadoop的数据仓库工具,依赖于HDFS存储数据,提供的SQL语言可以查询存储在HDFS中的数据。开发时一般使用Hive作为数据仓库,存储标签和用户特征库等相关数据。
王知无-import_bigdata
2021-11-30
9630
大数据之Hadoop企业级生产调优手册(下)
注:演示纠删码和异构存储需要一共 5台虚拟机。尽量拿另外一套集群。提前准备 5台服务器的集群。
王知无-import_bigdata
2021-10-13
5940
昨天的一个问题及答案(关键字Gzip、MapReduce、Spark)
OK,我们知道gzip不可分割了。那么一个10G的gzip文件在HDFS是怎么存储的呢?
王知无-import_bigdata
2021-10-13
6520
数据湖YYDS! Flink+IceBerg实时数据湖实践
互联网技术发展的当下,数据是各大公司最宝贵的资源之一已经是不争的事实。收据的收集、存储和分析已经成为科技公司最重要的技术组成部分。大数据领域经过近十年的高速发展,无论是实时计算还是离线计算、无论是数据仓库还是数据中台,都已经深入各大公司的各个业务。
王知无-import_bigdata
2021-10-13
3.9K0
打造大数据平台底层计算存储引擎 | Apache孵化器迎来Linkis!
微众银行开源项目Linkis正式通过Apache软件基金会(ASF)的投票表决,全票通过进入ASF孵化器!
王知无-import_bigdata
2021-09-22
1.3K0
ElasticSearch 亿级数据检索深度优化
数据平台已迭代三个版本,从头开始遇到很多常见的难题,终于有片段时间整理一些已完善的文档,在此分享以供所需朋友的实现参考,少走些弯路,在此篇幅中偏重于ES的优化。
王知无-import_bigdata
2021-09-22
7090
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档