前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据湖

数据湖

作者头像
yiduwangkai
发布2021-07-01 10:31:20
6040
发布2021-07-01 10:31:20
举报
文章被收录于专栏:大数据进阶大数据进阶

在说数据湖之前,我们还是先来说说数仓技术的前世今生

1.传统 T+1 任务

>海量的 TB 级 T+ 1 任务延迟导致下游数据产出时间不稳定

>任务遇到故障重试恢复代价昂贵

>数据架构在处理去重和 exactly-once 语义能力方面比较吃力

>架构复杂,涉及多个系统协调,靠调度系统来构建任务依赖关系

2.Lambda 架构

>同时维护实时平台和离线平台两套引擎,运维成本高

>实时离线两个平台需要维护两套框架不同但业务逻辑相同代码,开发成本高

>数据有两条不同链路,容易造成数据的不一致性

>数据更新成本大,需要重跑链路

3.Kappa 架构

>对消息队列存储要求高,消息队列的回溯能力不及离线存储

>消息队列本身对数据存储有时效性,且当前无法使用 OLAP 引擎直接分析消息队列 中的数据

>全链路依赖消息队列的实时计算可能因为数据的时序性导致结果不正确

4.数据湖

>支持数据高效的回溯能力

>支持数据的更新

>支持数据的批流读写

>支持实现分钟级到秒级的数据接入,实效性和Kappa 架构比略差

下面我们看下网上对于主流数据湖技术的对比

从上图中我们可以看到hudi和iceberg的功能较齐全,下面我们将从如下几方面来

1.元数据打通

2.flink读写数据湖

3.增量更新

4.对事务的支持

5.对于写入hdfs小文件合并的支持

6.湖中的数据和仓中的数据的联通测试

7.高效的回缩能力

8.支持Schema变更

9.支持批流读写

9.支持批流读写

说完了技术体现,下面我们在简单说一下数据湖和数仓的理论定义

数据湖

其实数据湖就是一个集中存储数据库,用于存储所有结构化和非结构化数据。数据湖可用其原生格式存储任何类型的数据,这是没有大小限制。数据湖的开发主要是为了处理大数据量,擅长处理非结构化数据。 我们通常会将所有数据移动到数据湖中不进行转换。数据湖中的每个数据元素都会分配一个唯一的标识符,并对其进行标记,以后可通过查询找到该元素。这样做技术能够方便我们更好的储存数据。

数据仓库

数据仓库是位于多个数据库上的大容量存储库。它的作用是存储大量的结构化数据,并能进行频繁和可重复的分析。通常情况下,数据仓库用于汇集来自各种结构化源的数据以进行分析,通常用于商业分析目的。一些数据仓库也可以处理非结构化数据,这是十分常用的工具

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
消息队列 CMQ 版
消息队列 CMQ 版(TDMQ for CMQ,简称 TDMQ CMQ 版)是一款分布式高可用的消息队列服务,它能够提供可靠的,基于消息的异步通信机制,能够将分布式部署的不同应用(或同一应用的不同组件)中的信息传递,存储在可靠有效的 CMQ 队列中,防止消息丢失。TDMQ CMQ 版支持多进程同时读写,收发互不干扰,无需各应用或组件始终处于运行状态。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档