首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签数据湖

#数据湖

数据湖是一个集中式存储池,可对接多种数据源,无缝对接各种计算分析和机器学习平台

揭秘Robinhood扩展和管理PB级规模Lakehouse架构

ApacheHudi

Robinhood 团队成员高级工程师 Balaji Varadarajan 和技术主管 Pritam Dey 描述了他们公司的数据Lakehouse的实现,R...

1300

现代数据技术栈:反向ETL

大数据学习与分享

反向 ETL 是将数据从数据仓库或数据湖移回到操作系统、应用程序或其他数据源的过程。“反向 ETL”一词可能看起来令人困惑,因为传统的 ETL(提取、转换、加载...

5610

腾讯云存储亮相2024数据基础设施技术峰会·4.24成都站

云存储

腾讯云 · 云存储 (已认证)

温涛,腾讯云存储解决方案总监,受邀出席本次活动,将于智算中心技术创新论坛分享“数据智能生态创新之路,腾讯云数据湖赋能AIGC多模态大模型”的主题演讲,期待你的光...

7910

Apache Hudi +MinIO + HMS构建现代数据湖

ApacheHudi

Apache Hudi 已成为管理现代数据湖的领先开放表格式之一,直接在现代数据湖中提供核心仓库和数据库功能。这在很大程度上是由于 Hudi 提供了高级功能,例...

8110

什么数据集成(Data Integration):如何将业务数据集成到云平台?

SNP数据迁移

说到数据集成(Data Integration),简单地将所有数据倒入数据湖并不是解决办法。 在这篇文章中,我们将介绍如何轻松集成数据、链接不同来源的数据、将其...

20610

数据仓库与数据湖与湖仓一体:概述及比较

大数据杂货铺

随着越来越多的公司依靠数据来推动关键业务决策、改进产品供应并更好地服务客户,公司捕获的数据量比以往任何时候都多。Domo 的这项研究估计,2017 年每天会生成...

13210

架构师的AI/ML数据湖参考架构指南

云云众生s

现代数据湖一半是数据仓库,一半是数据湖,并且对所有内容都使用对象存储。将对象存储用于数据湖非常有意义,因为对象存储适用于非结构化数据,而数据湖就是用来存储非结构...

8810

架构师指南:现代数据湖参考架构

云云众生s

旨在最大化其数据资产的企业正在采用可扩展、灵活且统一的数据存储和分析方法。这种趋势是由负责构建与不断变化的业务需求相一致的基础架构的企业架构师推动的。现代数据湖...

11510

实时数仓:实时数仓3.0的演进之路

Freedom123

传统意义上我们通常将数据处理分为离线数据处理和实时数据处理。对于实时处理场景,我们一般又可以分为两类,一类诸如监控报警类、大屏展示类场景要求秒级甚至毫秒级;另一...

10210

数据湖管理篇之Apache Iceberg

Freedom123

在文件format(parquet/avro/orc)之上实现table语义 支持定义和变更schema 支持hidden partition 和parti...

7810

如何让数据湖仓达到数据仓库的性能

云云众生s

数据湖仓库架构的普及性持续增加,这一点毫不令人惊讶。它们无缝集成数据湖和数据仓库的优点的潜力,承诺为数据处理和分析带来变革性的体验。然而,这种方法也存在缺陷。本...

6210

Uber 基于Apache Hudi的超级数据基础设施

ApacheHudi

Uber 是一个全球品牌,在全球 10,000 多个城市运营。该公司运营规模庞大,每月为超过 1.37 亿用户提供服务,每天为 2500 万次出行提供服务。数据...

10910

从 POC 到生产!Leboncoin 基于 Apache Hudi 构建 Lakehouse 实践

ApacheHudi

数据平台团队负责构建和维护平台基础设施以及开发内部 API,负责将 Leboncoin 的生产数据(大量 Kafka 事件)归档到所有团队都可以访问的非常大的数...

6810

沃尔玛基于 Apache Hudi 构建 Lakehouse

ApacheHudi

开源数据峰会上最有趣的会议之一是三级数据工程师 Ankur Ranjan 和高级数据工程师 Ayush Bijawat 的演讲,介绍他们在领先零售商沃尔玛中使用...

6410

腾讯天穹 StarRocks 一站式湖仓融合平台架构揭秘

腾讯大数据

数据湖的核心优势在于开放生态,数据湖通常会采用开放的存储格式,支持各种类型数据,扩展性强、存储成本比较低。而数仓的核心优势在于数据质量高,查询性能比较强,具备实...

28310

镜舟科技客户成功团队负责人孟庆欢:湖仓一体将成为数据架构的新范式

数据猿

一种是“湖上建仓”,即将数据录入数据湖中,再在数据湖上叠加数据仓库,按照数据仓库模式将数据湖中的数据源源不断地放入仓库进行加工应用。这相当于将数据湖作为数据源使...

10310

高性能存储与大模型融合创新相关研究

云存储

腾讯云 · 云存储 (已认证)

第三,数据加速器和数据湖实现按需数据流动,GPU将checkpoint实时写入数据加速器,可异步沉降到数据湖进行长久的保存或分发。数据加速器可对所有地域数据湖加...

13310

LakeHouse 还是 Warehouse?(1/2)

ApacheHudi

Vinoth Chandar 在 Uber 工作期间发起了数据湖仓一体架构,他是 Apache Hudi 项目的项目管理委员会 (PMC) 主席。Hudi 最初...

13610

专访李潇:数据智能平台,AI 时代的 Lakehouse 架构

深度学习与Python

在过去十年里,随着公有云的崛起、数据激增和人工智能的兴起等浪潮席卷,整个数据架构经历了巨大的变革和更新。这些激变使得数据架构发生了天翻地覆的变化。作为一家领先的...

12410
领券