开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

数据湖构建引擎

数据湖构建引擎是一种工具，用于从各种来源收集、存储、处理和分析大量数据，以便在组织内创建一个统一的、可扩展的数据存储库。数据湖是一个集成的数据资产，包括来自不同来源的结构化、半结构化和非结构化数据。数据湖可以帮助组织提高数据分析的效率和质量，并支持更好的决策制定和业务发展。

数据湖构建引擎的主要优势包括：

提高数据处理速度和效率：数据湖构建引擎可以处理大量数据，并且可以实现高速、高效的数据处理。
支持多种数据格式和来源：数据湖构建引擎可以处理来自不同来源的结构化、半结构化和非结构化数据，并支持多种数据格式。
提高数据分析的质量和效率：数据湖构建引擎可以实现数据的实时处理和分析，并且可以支持复杂的数据分析任务。
支持数据安全和隐私保护：数据湖构建引擎可以实现数据的加密和访问控制，以保护数据的安全和隐私。

数据湖构建引擎的应用场景包括：

数据分析和报告：数据湖构建引擎可以帮助组织分析和报告大量数据，以支持业务决策。
数据挖掘和机器学习：数据湖构建引擎可以帮助组织进行数据挖掘和机器学习，以提高业务效率和预测准确性。
数据治理和合规性：数据湖构建引擎可以帮助组织实现数据治理和合规性，以满足法规和政策要求。

推荐的腾讯云相关产品：

腾讯云数据湖产品是一种完整的数据湖解决方案，包括数据集成、数据存储、数据处理和数据分析等多个组件，可以帮助组织快速构建数据湖并实现数据的价值。腾讯云数据湖产品支持多种数据格式和来源，并且可以实现数据的实时处理和分析，以满足不同业务场景的需求。腾讯云数据湖产品还提供了数据安全和隐私保护功能，以保护数据的安全性和隐私性。

产品介绍链接地址：https://cloud.tencent.com/product/datalake

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

数字化进入深水区，湖仓一体让企业具备立体化数据能力丨爱分析访谈

自“信创”概念提出以来，国家政策大力支持数据基础软件发展，推动国产基础软件市场快速增长。与此同时，业务侧对数据分析、数据挖掘、数据探索的广泛应用也反推企业升级底层数据架构，通过优化数据引擎支撑数据开发、数据资产管理、数据应用等数据能力建设。国产基础软件发展正当时。

03

通用数据湖仓一体架构正当时

这篇博文中提出的建议并不新鲜。事实上许多组织已经投入了数年时间和昂贵的数据工程团队的工作，以慢慢构建这种架构的某个版本。我知道这一点，因为我以前在Uber和LinkedIn做过这样的工程师。我还与数百个组织合作，在开源社区中构建它并朝着类似的目标迈进。

01

OPPO数仓与数据湖融合架构升级的实践与思考

作者｜蔡芳芳过去几年，数据仓库和数据湖方案在快速演进和弥补自身缺陷的同时，二者之间的边界也逐渐淡化。云原生的新一代数据架构不再遵循数据湖或数据仓库的单一经典架构，而是在一定程度上结合二者的优势重新构建。在云厂商和开源技术方案的共同推动之下，2021 年我们将会看到更多“湖仓一体”的实际落地案例。InfoQ 希望通过选题的方式对数据湖和数仓融合架构在不同企业的落地情况、实践过程、改进优化方案等内容进行呈现。本文，InfoQ 采访了 OPPO 云数架构部部长鲍永成，请他与我们分享 OPPO 引入数据湖和数

02

一文了解数据湖引擎

数据湖引擎是一种开源软件解决方案或云服务，它通过一组统一的api和数据模型为分析工作负载的各种数据源提供关键功能。数据湖引擎解决了快捷访问、加速分析处理、保护和屏蔽数据、管理数据集以及提供跨所有数据源的统一数据目录等方面的关键需求。

05

万字详解大数据架构新概念

来源：五分钟学大数据本文约10000+字，建议阅读10+分钟本文将从历史的角度对数据湖和数据仓库的来龙去脉进行深入剖析。随着近几年数据湖概念的兴起，业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台，各大云厂商也在纷纷的提出自己的数据湖解决方案，一些云数仓产品也增加了和数据湖联动的特性。但是数据仓库和数据湖的区别到底是什么，是技术路线之争？是数据管理方式之争？二者是水火不容还是其实可以和谐共存，甚至互为补充？本文作者来自阿里巴巴计算平台部门，深度参与阿里巴巴大数据/数

02

数据湖VS数据仓库？湖仓一体了解一下

导读：随着近几年数据湖概念的兴起，业界对于数据仓库和数据湖的对比甚至争论就一直不断。有人说数据湖是下一代大数据平台，各大云厂商也在纷纷的提出自己的数据湖解决方案，一些云数仓产品也增加了和数据湖联动的特性。

01

数据湖 | 一文读懂Data Lake的概念、特征、架构与案例

本文包括七个小节：1、什么是数据湖；2、数据湖的基本特征；3、数据湖基本架构；4、各厂商的数据湖解决方案；5、典型的数据湖应用场景；6、数据湖建设的基本过程；7、总结。受限于个人水平，谬误在所难免，欢迎同学们一起探讨，批评指正，不吝赐教。

09

架构师指南：现代数据湖参考架构

旨在最大化其数据资产的企业正在采用可扩展、灵活且统一的数据存储和分析方法。这种趋势是由负责构建与不断变化的业务需求相一致的基础架构的企业架构师推动的。现代数据湖架构通过将数据湖的可扩展性和灵活性与数据仓库的结构和性能优化相结合来满足这一需求。这篇文章提供了一个参考架构，用于理解和实施现代数据湖。

01

数据如水海纳百川，数据湖如何成为数据治理的新范式？

10年前，Pentaho公司创始人兼CTO詹姆斯·迪克逊(James Dixon)在他的博客中第一次提出“数据湖”(Data Lake)的概念；10年后的今天，在业界“数据中台”大火的时代背景下，再来讨论“数据湖”，别有一番风味。

03

腾讯云发布国内首个云原生智能数据湖产品图谱，构建一体化数据湖服务

腾讯云大数据产品中心副总经理雷小平表示：“伴随着企业对于数据洞察敏捷度要求的不断提升，腾讯云正在不断探索更智能、更灵活、更高性价比的大数据工具。我们看到，数据湖架构已经成为在数据智能时代的新趋势，而云是数据湖最佳的实践场所。腾讯云原生智能数据湖将助力各行各业解决多元化数据分析场景的新需求，更好地激发大数据在企业数字化升级过程中的价值。”

05

滴普科技冯森：FastData DLink实时湖仓引擎架构设计与落地实践

本文根据冯森在【第十三届中国数据库技术大会（DTCC2022）】线上演讲内容整理而成。

03

BDCC- 数据湖体系

数据湖是一种存储系统，底层包括不同的文件格式及湖表格式，可存储大量非结构化和半结构化的原始数据。

03

关于 Lakehouse 的一些笔记和看法

这是最经典的数据仓库模型，模型上面的不多说，可以参考数据仓库理论。从技术角度上来说，

01

Cloudera 的开放湖仓采用dbt Core增压

dbt允许数据团队使用 SQL 生成可信数据集，用于报告、ML 建模和操作工作流，其简单的工作流遵循模块化、可移植性和持续集成/持续开发 (CI/CD) 等软件工程最佳实践。我们很高兴地宣布针对 CDP 中的所有引擎（Apache Hive、Apache Impala和 Apache Spark）的 dbt 开源适配器普遍可用，并增加了对Apache Livy和Cloudera Data Engineering的支持。使用这些适配器，Cloudera 客户可以使用 dbt 在 CDP 公共云、CDP One 和 CDP 私有云上协作、测试、部署和记录他们的数据转换和分析管道。

01

Apache Hudi 背后商业公司Onehouse宣布2500万美元A轮融资

自推出以来，我们与几位早期用户合作，将我们的产品愿景变为现实，并为他们的生产数据湖提供动力。我们的目标是在 lakehouse 技术之上提供云数据仓库堆栈的易用性和自动化，反过来也为用户提供急需的成本效益和性能优势。作为这一旅程的重要里程碑，我很高兴地宣布由 Addition 和 Greylock 合作伙伴领投的 2500 万美元 A 轮融资。我很荣幸 Jerry Chen (Greylock) 和 Aaron Schildkrout (Addition) 加入我们的董事会。

03

湖仓才是数据智能的未来？那你必须了解下国产唯一开源湖仓了

机器之心发布机器之心编辑部国产唯一的开源数据湖存储框架 LakeSoul 近期发布了 2.0 升级版本，让数据智能触手可及。湖仓一体作为新一代大数据技术架构，将逐渐取代单一数据湖和数仓架构，成为大数据架构的演进方向。当前已有 DeltaLake、Iceberg、Hudi 等国外开源的数据湖存储框架。LakeSoul 是数元灵科技研发的，国产唯一的开源数据湖存储框架，并于近期发布了 2.0 升级版本。本文将结合大数据架构的演变历史及业务需求，深度剖析国产唯一开源湖仓一体框架 LakeSoul 带来的现

03

湖仓一体：基于Iceberg的湖仓一体架构在B站的实践

在B站，每天都有PB级的数据注入到大数据平台，经过离线或实时的ETL建模后，提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据，如何高效低成本地满足下游数据的分析需求，一直是我们重点的工作方向。

01

云端数智新引擎，腾讯云原生数据湖计算重磅发布

2010年 Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊（James Dixon）首次提出数据湖的概念。把数据湖中的数据比作原生态的水——它是未经处理的，原汁原味的。数据湖中的水从源头流入湖中，各种用户都可以来湖里获取、蒸馏提纯这些水（数据）。此时，大家对于数据湖的理解主要是当作一个集中式的存储系统，允许存储任意规模的结构化和非结构化数据。

02

金融信创湖仓一体数据平台架构实践

大数据基础设施的发展经历了四个主要阶段，每个阶段都有着标志性的技术进步来应对新的应用需求。

01

数栈在湖仓一体上的探索与实践

大数据技术的发展历程中，继数据仓库、数据湖之后，大数据平台的又一革新技术——湖仓一体近年来开始引起业内关注。市场发展催生的数据管理需求一直是数据技术革新的动力。比如数据仓库如何存储不同结构的数据？数据湖又如何避免因为缺乏治理导致的数据杂乱现象？今天的文章想跟大家具体聊聊我们的数栈如何解决这些问题。

02

数据仓库、数据湖、数据中台一文读懂【2】

Pentaho首席技术官James Dixon创造了“数据湖”一词。它把数据集市描述成一瓶水（清洗过的，包装过的和结构化易于使用的）。

03

云端数智新引擎，腾讯云原生数据湖计算重磅发布

引言是否遇到过，一个简单的业务统计需求却让数据工程师们抓耳挠腮？是否遇到过，业务峰值周期明显，要么资源大量闲置，要么线上疯狂告警？是否遇到过，大数据集群运维复杂，需要投入大量技术工程师？针对以上痛点，腾讯云发布云原生数据湖计算服务，协同腾讯云端数据湖体系，帮助企业高效构建云端数据湖架构、降低数据计算成本，提升数据分析敏捷性、激发数据应用价值，助力企业数字化决策。本文作者：ericshhxie 一、数据湖的前世今生 2010年 Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊（Jame

03

云端数智新引擎，腾讯云原生数据湖计算重磅发布

引言是否遇到过，一个简单的业务统计需求却让数据工程师们抓耳挠腮？是否遇到过，业务峰值周期明显，要么资源大量闲置，要么线上疯狂告警？是否遇到过，大数据集群运维复杂，需要投入大量技术工程师？针对以上痛点，腾讯云发布云原生数据湖计算服务，协同腾讯云端数据湖体系，帮助企业高效构建云端数据湖架构、降低数据计算成本，提升数据分析敏捷性、激发数据应用价值，助力企业数字化决策。本文作者：ericshhxie 一、数据湖的前世今生 2010年 Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊（James

02

云端数智新引擎，腾讯云原生数据湖计算重磅发布

针对以上痛点，腾讯云发布云原生数据湖计算服务，协同腾讯云端数据湖体系，帮助企业高效构建云端数据湖架构、降低数据计算成本，提升数据分析敏捷性、激发数据应用价值，助力企业数字化决策。

02

云端数智新引擎，腾讯云原生数据湖计算重磅发布

针对以上痛点，腾讯云发布云原生数据湖计算服务，协同腾讯云端数据湖体系，帮助企业高效构建云端数据湖架构、降低数据计算成本，提升数据分析敏捷性、激发数据应用价值，助力企业数字化决策。

05

大数据架构系列：如何理解湖仓一体？

导语 | 本文推选自腾讯云开发者社区-【技思广益 · 腾讯技术人原创集】专栏。该专栏是腾讯云开发者社区为腾讯技术人与广泛开发者打造的分享交流窗口。栏目邀约腾讯技术人分享原创的技术积淀，与广泛开发者互启迪共成长。本文作者是腾讯后台开发工程师叶强盛。引言这十多年大数据技术蓬勃发展，从市场的表现来看基于大数据的数据存储和计算是非常有价值的，其中以云数据仓库为主打业务的公司Snowflake市值最高（截止当前449亿美元），另一家以湖仓一体为方向公司Databricks估值或达380亿美元；各大伺机而动的云厂

02

实时方案之数据湖探究调研笔记

数据湖是目前比较热的一个概念，许多企业都在构建或者计划构建自己的数据湖。但是在计划构建数据湖之前，搞清楚什么是数据湖，明确一个数据湖项目的基本组成，进而设计数据湖的基本架构，对于数据湖的构建至关重要。关于什么是数据湖？有不同的定义。

03

湖仓一体电商项目（一）：项目背景和架构介绍

湖仓一体实时电商项目是基于某宝商城电商项目的电商数据分析平台，本项目在技术方面涉及大数据技术组件搭建，湖仓一体分层数仓设计、实时到离线数据指标分析及数据大屏可视化，项目所用到的技术组件都从基础搭建开始，目的在于湖仓一体架构中数据仓库与数据湖融合打通，实现企业级项目离线与实时数据指标分析。在业务方面目前暂时涉及到会员主题与商品主题，分析指标有用户实时登录信息分析、实时浏览pv/uv分析、实时商品浏览信息分析、用户积分指标分析，后续还会继续增加业务指标和完善架构设计。

04

「数据战略」数据驱动企业和DataOps :数据仓库与数据湖：入门

第1章和第2章介绍了数据驱动组织的概念，并在大数据计划的背景下定义了数据操作的概念。现在，是时候退一步，探索一些其他基本但重要的概念了。在这一点上，我们最重要的任务之一是清楚地描述数据仓库和数据湖之间的区别。

03

2022年中国湖仓一体平台市场研究报告｜爱分析报告

为适应数据应用需求，大数据平台架构持续演进，历经数据仓库、数据湖两个阶段。2020年，湖仓一体概念提出，湖仓一体架构因能实现数据资产统一管理、降低数据冗余、降低大数据平台架构运维复杂性，将成为大数据平台的主流架构。

03

原生数据湖体系

随着数据量的爆发式增长，数字化转型称为了整个IT行业的热点，数据也开始需要更深度的价值挖掘，因此需要确保数据中保留的原始信息不丢失，从而应对未来不断变化的需求。当前以oracle为代表的数据库中间件已经逐渐无法适应这样的需求情况，于是业界也开始进行不断的产生的计算引擎，以便应对数据时代的到来。在此背景下，数据湖的概念被越来越多的人提起，希望能有一套系统在保留数据的原始信息情况下，又能够快速对接多种不同的计算平台，从而在数据时代占比的先机。

03

火山引擎数据湖存储内核揭秘

火山引擎LAS 全称（Lakehouse Analysis Service）湖仓一体分析服务，融合了湖与仓的优势，既能够利用湖的优势将所有数据存储到廉价存储中，供机器学习、数据分析等场景使用，又能基于数据湖构建数仓供 BI 报表等业务使用。本文将从统一的元数据服务和表操作管理服务两大方面，揭秘如何基于Hudi如何构建数据湖存储内核。

01

最佳实践 | 通过Apache Hudi和Alluxio建设高性能数据湖

T3出行的杨华和张永旭描述了他们数据湖架构的发展。该架构使用了众多开源技术，包括Apache Hudi和Alluxio。在本文中，您将看到我们如何使用Hudi和Alluxio将数据摄取时间缩短一半。此外，数据分析人员如何使用Presto、Hudi和Alluxio让查询速度提高了10倍。我们基于数据编排为数据管道的多个阶段（包括提取和分析）构建了数据湖。

02

最新大厂数据湖面试题，知识点总结（上万字建议收藏）

本文目录：一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库的区别七、为什么要做数据湖？区别在于？八、数据湖挑战九、湖仓一体十、目前有哪些开源数据湖组件十一、三大数据湖组件对比

02

【活动回顾】腾讯大数据 x StarRocks｜构建新一代实时湖仓

2023 年 9 月 26 日，腾讯大数据团队与 StarRocks 社区携手举办了一场名为“构建新一代实时湖仓”的盛大活动。活动聚集了来自腾讯大数据、腾讯视频、腾讯游戏、同程旅行以及StarRocks 社区的技术专家，共同深入探讨了湖仓一体技术以及其应用实践等多个备受瞩目的话题，观看人数过万。

02

镜舟科技客户成功团队负责人孟庆欢：湖仓一体将成为数据架构的新范式

随着数字化的概念逐步深入不同领域企业的运营中，业务形态和数字化路径也越来越丰富。这也为企业数据处理、储存的方式提出了更多要求。对于企业，尤其是数据驱动型企业来说，需要强大的解决方案来管理和分析整个组织中的大量数据，这些系统必须具有可伸缩性、可靠性和安全性，并且必须具有足够的灵活性以支持各种数据类型和使用场景。这些要求远远超出了任何传统数据库的能力，因此，数据仓库、数据湖等多种不同的架构逐渐成为了数据库行业的热门技术。

01

4万字长文全面解读数据中台、数据仓库和数据湖

如今，随着诸如互联网以及物联网等技术的不断发展，越来越多的数据被生产出来。据统计，每天大约有超过2.5亿亿字节的各种各样数据产生。这些数据需要被存储起来并且能够被方便的分析和利用。

02

使用 Apache Hudi + Daft + Streamlit 构建 Lakehouse 分析应用

为了应对这些挑战，像 Streamlit[1] 这样的低代码工具作为 Python 生态系统的包装器，允许将 API、模型和业务逻辑变为现实。Streamlit 支持从数据库、API 和文件系统等各种来源轻松使用数据，从而轻松集成到应用程序中。在这篇博客中，我们将重点介绍如何使用直接来自开放湖仓一体平台的数据来构建数据应用。

01

2w字详解数据湖：概念、特征、架构与案例

点击上方“芋道源码”，选择“设为星标” 管她前浪，还是后浪？能浪的浪，才是好浪！每天 10:33 更新文章，每天掉亿点点头发... 源码精品专栏原创 | Java 2021 超神之路，很肝~ 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析网络应用框架 Netty 源码解析消息中间件 RocketMQ 源码解析数据库中间件 Sharding-JDBC 和 MyCAT 源码解析作业调度中间件 Elastic-Job 源码解析分布式事务中间件 TCC-Transaction

03

LakeHouse 还是 Warehouse？(1/2)

Onehouse 创始人/首席执行官 Vinoth Chandar 于 2022 年 3 月在奥斯汀数据委员会[1]发表了这一重要演讲。奥斯汀数据委员会是“世界上最大的独立全栈数据会议”，这是一个由社区驱动的活动，包括数据科学、数据工程、分析、机器学习（ML）、人工智能（AI）等。

01

农业银行湖仓一体实时数仓建设探索实践

在数字化转型驱动下，实时化需求日益成为金融业数据应用新常态。传统离线数仓“T+N”数据供给模式，难于满足“T+0”等高时效场景需求；依托Storm、Spark Streaming、Flink等实时计算框架提供“端到端”的实时加工模式，无法沉淀实时数据资产，存在实时数据复用性低、烟囱式垂直建设等不足。

04

查收一份来自南极的Iceberg数据治理指南

Apache Iceberg 作为面向超大型湖存储的新一代表格式，由于在元数据管理、数据时效性以及解决传统Hive在海量分区操作耗时方面具备显著优势，目前正在被越来越多的企业用户认可。如腾讯云的新一代Lakehouse产品数据湖计算 DLC，其底层存储同样基于Iceberg深度优化。

01

重磅！基于Apache Hudi的商业公司Onehouse成立

Apache Hudi[1]（简称“Hudi”）于 2016 年在 Uber 创建，旨在将数据仓库功能引入数据湖以获取准实时的数据，开创了事务数据湖架构，现已在所有垂直行业中进入主流。在过去的 5 年里，围绕该项目已发展出一个丰富多彩的社区[2]，并迅速创新。Hudi 为数据湖带来了类似数据仓库及数据库的功能，并使诸如分钟级数据新鲜度、优化存储、自我管理表等新事物直接在数据湖中成为可能。来自世界各地的许多公司都为 Hudi 做出了贡献，该项目在不到两年的时间内增长了 7 倍，每月下载量接近 100 万次。我很荣幸目睹了亚马逊[3]、字节跳动、Disney+ Hotstar[4]、GE Aviation[5]、Robinhood[6]、沃尔玛[7]等更多企业采用并构建基于 Apache Hudi 的 EB (Exabyte) 级数据湖，来支持其关键商业应用。紧跟潮流，我很高兴能在这里分享过去几个月我们利用 Hudi 正在构建的公司和产品 - Onehouse。为了启动我们的征程，我们获得了 Greylock Ventures 和 Addition 的 8 百万美元的种子轮投资——这些投资公司在培育企业数据初创公司方面拥有出色的业绩记录和丰富的经验。以下是我们的旅程故事和对未来的愿景。

02

直播预约中！9.26腾讯大数据XStarRocks技术专题探讨

随着数据爆炸式增长，如何高效处理和分析海量数据已经成为关键挑战，结合传统数仓与数据湖优势的湖仓一体（Lakehouse）架构崭露头角，成为大数据领域势不可挡的趋势。

02

基于 Flink+Iceberg 构建企业级实时数据湖

Apache Flink 是大数据领域非常流行的流批统一的计算引擎，数据湖是顺应云时代发展潮流的新型技术架构。那么当 Apache Flink 遇见数据湖时，会碰撞出什么样的火花呢？本次分享主要包括以下核心内容：

02

一份数据满足所有数据场景？腾讯云数据湖解决方案及DLC内核技术介绍

摘要 OLAP数据库/引擎日新月异，不断推陈出新，在各种场景下有不同引擎的价值：flink擅长于实时数据集成/实时计算；spark批处理、tb级以上、hive生态、复杂join的数据分析、以及机器学习；presto联邦分析、较简单join、tb级以下hive生态udf数据分析；clickhouse 大宽表聚合操作、无数据更新、尽量无join、没有复杂udf的亚秒级分析，tensorflow深度学习等等即使相同的引擎，考虑资源隔离、成本分摊、数仓研发/使用周期（test，adhoc，prod，backfil

03

从Snowflake看数据仓库未来演进方向：计算存储分离、弹性计算、统一存储和Serverless化

作者 | 蔡芳芳采访嘉宾 | 陈龙 2020 年 9 月，主打云数据仓库产品的硅谷独角兽 Snowflake 正式登陆纳斯达克，首日 IPO 筹资高达 33.6 亿美元，是有记录以来金额最大的软件 IPO，突破了 Uber 2019 年 5 月上市创下的最大规模纪录。如今，大数据技术早已进入普及期，数据仓库 / 分析领域更是巨头林立，既有传统厂商 Oracle、Teradata，也有开源软件 Hadoop，还有云厂商 AWS Redshift、Google Bigquery，在这样一个竞争环境下

02

从Snowflake看数据仓库演进方向：计算存储分离、弹性计算、统一存储和Serverless化

2020 年 9 月，主打云数据仓库产品的硅谷独角兽 Snowflake 正式登陆纳斯达克，首日 IPO 筹资高达 33.6 亿美元，是有记录以来金额最大的软件 IPO，突破了 Uber 2019 年 5 月上市创下的最大规模纪录。如今，大数据技术早已进入普及期，数据仓库 / 分析领域更是巨头林立，既有传统厂商 Oracle、Teradata，也有开源软件 Hadoop，还有云厂商 AWS Redshift、Google Bigquery，在这样一个竞争环境下，成立于 2012 年的 Snowflake 能脱颖而出实属不易。那么，Snowflake 在数仓技术方面有哪些独到之处？其成功的背后又有哪些技术原因和趋势值得关注？

04

对话Apache Hudi VP，洞悉数据湖的过去现在和未来

Apache Hudi是一个开源数据湖管理平台，用于简化增量数据处理和数据管道开发，该平台可以有效地管理业务需求，例如数据生命周期，并提高数据质量。Hudi的一些常见用例是记录级的插入、更新和删除、简化文件管理和近乎实时的数据访问以及简化的CDC数据管道开发。

02

干货|流批一体Hudi近实时数仓实践

传统意义上的数据集市主要处理T+1的数据。随着互联网的发展，当前越来越多的业务场景对于数据时效性提出了更高的要求，以便及时快速地进行数据分析和业务决策，比如依托实时数据情况开展实时推荐、实时风控、实时营销等。特别是各种新技术的出现、发展和日趋成熟，实时数据分析和处理也成为可能。实时的大规模数据处理成为企业数字化转型过程中需要破解的难题，也是企业当前面临的一个普遍需求。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭