腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

最新最全的大数据技术体系

专栏作者

717

文章

537746

阅读量

33

订阅数

提升数据分析效率：Amazon S3 Express One Zone数据湖实战教程

express 数据分析数据湖教程效率

（声明：本篇文章授权活动官方亚马逊云科技文章转发、改写权，包括不限于在亚马逊云科技开发者社区、知乎、自媒体平台、第三方开发者媒体等亚马逊云科技官方渠道）

2023-12-18

1220

Hudi数据湖技术引领大数据新风口(四)核心概念

大数据数据湖事件数据索引

Hudi的核心是维护表上在不同的即时时间（instants）\执行的所有操作的时间轴（timeline）\，这有助于提供表的即时视图，同时还有效地支持按到达顺序检索数据。一个instant由以下三个部分组成：

2023-09-25

2230

流数据湖平台Apache Paimon（三）Flink进阶使用

apache flink 数据湖数据性能

当Sorted Run数量较少时，Paimon writer 将在单独的线程中异步执行压缩，因此记录可以连续写入表中。然而，为了避免Sorted Runs的无限增长，当Sorted Run的数量达到阈值时，writer将不得不暂停写入。下表属性确定阈值。

2023-07-31

1.6K0

流数据湖平台Apache Paimon（二）集成 Flink 引擎

apache flink 数据湖配置同步

Paimon目前支持Flink 1.17, 1.16, 1.15 和 1.14。本课程使用Flink 1.17.0。

2023-07-31

1.8K0

流数据湖平台Apache Paimon（一）概述

apache 存储数据湖日志数据

Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合，推出新一代的 Streaming Lakehouse 技术，促进数据在数据湖上真正实时流动起来，并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store （简称 FTS ）子项目，一个真正面向 Streaming 以及 Realtime的数据湖存储项目。2023年3月12日，FTS进入 Apache 软件基金会 (ASF) 的孵化器，改名为 Apache Paimon (incubating)。

2023-07-31

1.4K0

Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突

spark 大数据数据湖 jetty version

修改了Hive版本为3.1.2，其携带的jetty是0.9.3，hudi本身用的0.9.4，存在依赖冲突。

2023-07-28

1950

Hudi数据湖技术引领大数据新风口(二)编译安装

大数据数据湖编译镜像源码

（1）上传apache-maven-3.6.1-bin.tar.gz到/opt/software目录，并解压更名

2023-07-28

4090

Hudi:数据湖技术引领大数据新风口

存储大数据数据湖数据索引

Apache Hudi（Hadoop Upserts Delete and Incremental）是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发，同时保持数据的开源文件格式。

2023-07-25

4010

[解惑]数据湖跟数仓的区别

2021-12-07

9070

大数据错题库（微信群Bug整理）

hive spark node.js 大数据数据湖

勤快懒人: 数据仓库本身上讲已经是结构化或者是半结构化的数据数据湖就是半结构化 +没有结构的数据数据源更加丰富【数据仓库或者数据湖的作用感觉和代码复用很想常用的抽出来】

2021-12-07

1.7K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态