首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏作者
717
文章
537746
阅读量
33
订阅数
提升数据分析效率:Amazon S3 Express One Zone数据湖实战教程
(声明:本篇文章授权活动官方亚马逊云科技文章转发、改写权,包括不限于在 亚马逊云科技开发者社区、知乎、自媒体平台、第三方开发者媒体等亚马逊云科技官方渠道)
Maynor
2023-12-18
1220
Hudi数据湖技术引领大数据新风口(四)核心概念
Hudi的核心是维护表上在不同的即时时间(instants)\执行的所有操作的时间轴(timeline)\,这有助于提供表的即时视图,同时还有效地支持按到达顺序检索数据。一个instant由以下三个部分组成:
Maynor
2023-09-25
2230
流数据湖平台Apache Paimon(三)Flink进阶使用
当Sorted Run数量较少时,Paimon writer 将在单独的线程中异步执行压缩,因此记录可以连续写入表中。然而,为了避免Sorted Runs的无限增长,当Sorted Run的数量达到阈值时,writer将不得不暂停写入。下表属性确定阈值。
Maynor
2023-07-31
1.6K0
流数据湖平台Apache Paimon(二)集成 Flink 引擎
Paimon目前支持Flink 1.17, 1.16, 1.15 和 1.14。本课程使用Flink 1.17.0。
Maynor
2023-07-31
1.8K0
流数据湖平台Apache Paimon(一)概述
Flink 社区希望能够将 Flink 的 Streaming 实时计算能力和 Lakehouse 新架构优势进一步结合,推出新一代的 Streaming Lakehouse 技术,促进数据在数据湖上真正实时流动起来,并为用户提供实时离线一体化的开发体验。Flink 社区内部孵化了 Flink Table Store (简称 FTS )子项目,一个真正面向 Streaming 以及 Realtime的数据湖存储项目。2023年3月12日,FTS进入 Apache 软件基金会 (ASF) 的孵化器,改名为 Apache Paimon (incubating)。
Maynor
2023-07-31
1.4K0
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
修改了Hive版本为3.1.2,其携带的jetty是0.9.3,hudi本身用的0.9.4,存在依赖冲突。
Maynor
2023-07-28
1950
Hudi数据湖技术引领大数据新风口(二)编译安装
(1)上传apache-maven-3.6.1-bin.tar.gz到/opt/software目录,并解压更名
Maynor
2023-07-28
4090
Hudi:数据湖技术引领大数据新风口
Apache Hudi(Hadoop Upserts Delete and Incremental)是下一代流数据湖平台。Apache Hudi将核心仓库和数据库功能直接引入数据湖。Hudi提供了表、事务、高效的upserts/delete、高级索引、流摄取服务、数据集群/压缩优化和并发,同时保持数据的开源文件格式。
Maynor
2023-07-25
4010
[解惑]数据湖跟数仓的区别
📷 📷 📷
Maynor
2021-12-07
9070
大数据错题库(微信群Bug整理)
勤快懒人: 数据仓库 本身上讲 已经是结构化或者是半结构化的数据 数据湖 就是半结构化 +没有结构的数据 数据源更加丰富 【数据仓库或者数据湖的作用 感觉和代码复用很想 常用的抽出来】
Maynor
2021-12-07
1.7K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档