开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何在Kedro中使用databricks delta lake格式？

Kedro是一个开源的数据管道开发框架，用于帮助数据科学家和工程师更好地管理和组织数据工作流。Databricks Delta Lake是一个开源的数据湖解决方案，它提供了ACID事务、数据版本控制和数据质量保证等功能。

要在Kedro中使用Databricks Delta Lake格式，可以按照以下步骤进行操作：

安装Kedro和Databricks Delta Lake：首先，确保已经安装了Kedro和Databricks Delta Lake的相关依赖。可以通过pip安装kedro和delta-lake插件。
初始化Kedro项目：使用Kedro命令行工具初始化一个新的Kedro项目。在命令行中运行kedro new命令，并按照提示进行配置。
配置数据存储：在Kedro项目的catalog.yml文件中配置数据存储。可以使用delta格式指定使用Databricks Delta Lake格式存储数据。例如：

my_dataset:
  type: delta
  path: data/my_dataset

定义数据处理步骤：在Kedro项目的pipeline.py文件中定义数据处理步骤。可以使用Kedro提供的数据节点和转换节点来定义数据处理流程。
运行数据处理流程：使用Kedro命令行工具运行定义好的数据处理流程。在命令行中运行kedro run命令，Kedro将按照定义的流程依次执行数据处理步骤。

通过以上步骤，你可以在Kedro中使用Databricks Delta Lake格式进行数据处理和存储。这样可以充分利用Databricks Delta Lake提供的ACID事务和数据版本控制功能，确保数据的一致性和可追溯性。

腾讯云相关产品和产品介绍链接地址：

腾讯云对象存储（COS）：https://cloud.tencent.com/product/cos
腾讯云数据湖服务（Data Lake）：https://cloud.tencent.com/product/datalake
腾讯云云原生数据库TDSQL：https://cloud.tencent.com/product/tdsql
腾讯云云服务器CVM：https://cloud.tencent.com/product/cvm
腾讯云人工智能AI Lab：https://cloud.tencent.com/product/ailab
腾讯云物联网平台（IoT Hub）：https://cloud.tencent.com/product/iothub
腾讯云移动开发平台（MTP）：https://cloud.tencent.com/product/mtp
腾讯云分布式文件存储（CFS）：https://cloud.tencent.com/product/cfs
腾讯云区块链服务（BCS）：https://cloud.tencent.com/product/bcs
腾讯云元宇宙（Metaverse）：https://cloud.tencent.com/product/metaverse

请注意，以上链接仅供参考，具体产品选择应根据实际需求和情况进行评估。

相关搜索:如何在Databricks notebook中检查Delta Lake版本？如何在Delta Lake表中添加新列？如何在Delta Lake中删除旧版本的表如何在Zeppelin的spark解释器中添加对Delta Lake的支持？如何在Excel中自定义数字格式，如###，###？如何在Echarts中设置xAxis的时间类型和格式，如{hh:mm}？如何在表格中以日期格式添加日期列，如dd:mm:yy NOT as String 如何在格式化变量时使用.format()说明符，如，.2f？获取ADLS目录和子目录路径，直到它使用databricks获取表中的文件格式 FastAPI如果使用响应模型，如何在响应中插入附加信息(如查询)？tdxSpreadSheet，如何在用代码创建的单元格中设置浮点数的格式，如“123.450”如何在php或javascript中获取utc格式的客户端时区(如(UTC+05:00) )如何在使用dynaconf时自动将settings.toml转换为另一种格式，如.yaml 如何在Phaser3中使用平铺，使用JSON格式？如何在Angular中添加动画(如fadeIn和fadeOut) (使用ngx-owl-carousel-o)？如何在oracle中以日期格式使用To_date函数？如何在flutter中使用与webapp中相同的格式？在laravel格式中如何在select选项中使用isset 如何在Spring Boot API请求中强制使用DateTime格式？如何在使用SQL databricks的同时，基于现有的增量表向新表中添加空列？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Lakehouse架构指南

你曾经是否有构建一个开源数据湖[1]来存储数据以进行分析需求？数据湖包括哪些组件和功能？

02

Delta Lake 2.0：Databricks的急病乱投医？？？

新粉请关注我的公众号在今年的Data+AI summit上，Databricks宣布了不少东西，其中之一就是2019年同样的Data+AI Summit上开源的Delta Lake，这次宣布开源2.0。这个2.0按照Databricks的说法，就是把之前藏着的捏着的“高级”功能全部都开源出来了。这也包括了Databricks之前觉得特别重要的Z-Ordering。 Delta Lake这个项目Databricks最开始做的应该是最早的，但是不开源，只是卖钱给付费客户用。 2019年的时候终于开源了。开

01

0927-Databricks X Tabular

Databricks 已同意收购由 Apache Iceberg 创建者领导的存储平台供应商 Tabular，以促进 Lakehouse 中的数据互操作性。

01

热度再起：从Databricks融资谈起

就在本周一，大数据初创公司Databricks在官网宣布他们完成了10亿美元的G轮融资，对公司的估值为280亿美元。作为同类公司，之前Snowflake的IPO就引发资本的热捧，此次Databricks的融资也印证了这点。为什么资本对数据平台公司如此关注？正如之前我的一篇《当红炸子鸡Snowflake》中谈到，“云计算+大数据”催收了无限遐想空间。下面就让我们来看看这个独角兽Databricks的情况。本文内容部分摘自Databricks官网。

01

DataBricks新项目Delta Lake的深度分析和解读。

DataBricks最近新开源了一个项目Delta Lake。这其实不算是个新项目了。DataBricks在其商业版里面提供这样的功能已经有一段时日了。对我来说Delta Lake就是久闻大名，但是不知道庐山真面目。

03

暗战升级，Databricks 收购 Tabular，Iceberg 社区陷入动荡

紧接着，最近刚刚发生的事件，Iceberg 的 Contributor Kanou Natsukawa 呼吁 Icerberg 的 PMC Chair 辞职，核心他的担忧是存在利益冲突。

01

网易有数怼Databricks： “Delta Lake2.0比Iceberg快”是假的。。。

新粉请关注我的公众号 Delta Lake 2.0 正式发布了。网易的大数据产品也没闲着，这就搞了点事情：从Delta 2.0开始聊聊我们需要怎样的数据湖。这篇文章的内容很多，大家有需要的可以自己读读，肯定有收获。我就不展开一一分析了。今天的重点是看看这篇文章网易是如何打脸Databricks的。这是Databricks在官宣要发布Delta Lake 2.0的讲座的时候的一张PPT。网易的文章也引用了。简单来说就是Delta Lake 2.0快，Iceberg Hudi都是渣渣。这个测试是第三方

04

我们为什么在 Databricks 和 Snowflake 间选型前者？

作为 DeNexus 安全服务提供商，需要良好选型的数据平台实现巨量数据的分析和管理。DeNexus 根据自身需求选型了 Databricks 的湖仓一体解决方案，满足自身对数据类型、用户类型、可扩展性、版本管理和 MLOps 上的需求。

01

然而并没什么卵用的Apache CarbonData发布功能强劲的2.0版

5月的大数据圈子，波澜不兴之余，华为主导的开源项目Apache CarbonData发布2.0 RC2版本。这是CarbonData这个项目的一次巨大升级。

02

一个理想的数据湖应具备哪些功能？

从数据库到数据仓库，最后到数据湖[1]，随着数据量和数据源的增加，数据格局正在迅速变化。数据湖市场预计增长近 30%[2]，将从 2020 年的 37.4 亿美元增长到 2026 年的 176 亿美元。此外从 2022 年数据和人工智能峰会[3]来看，数据湖架构[4]显然是数据管理和治理的未来。由于 Databricks[5] 发布了 Delta 2.0，该趋势可能会增长，该平台的所有 API 都将是开源的。此外Snowflakes[6] 在其峰会上宣布了一些改变游戏规则的功能，使数据湖成为该行业的支柱。治理、安全性、可扩展性以及对分析和交易数据的无缝分析，将会推动该领域创新。

04

Hudi、Iceberg 和 Delta Lake：数据湖表格式比较

在构建数据湖时，可能没有比存储数据格式更重要的决定了。结果将直接影响其性能、可用性和兼容性。

02

估值380亿美元！这家微软、谷歌、亚马逊都投资的AI初创公司什么来头？

昨日，人工智能大数据初创公司Databricks成功完成了16亿美元的H轮融资，其估值达到了380亿美元。

02

无数据不AI的狂欢！Databricks Data+AI峰会亮点总结

一年一度的 Databricks Data+AI 峰会于上周在旧金山 Moscone 会议中心热闹开展。作为全美乃至全球最大的科技会议之一，Data+AI 峰会自然吸引了大量数据与人工智能领域工作者的目光。而以往年不同的是，今年的峰会在举办之前便火药味十足。在今年早些时候，Databricks 与 Snowflake 这两家最大的云数据平台厂商便先后宣布将在同一时间，也就是六月最后一周，举行各自的年度会议。这意味着，广大科技工作者们只能在这两家公司的活动中做出二选一的艰难抉择。而在峰会期间，Databricks 更是大规模投放广告，直接叫板 Snowflake，高调宣称自家的数据湖仓相比于 Snowflake 拥有 9 倍性价比提升。

04

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。

02

重磅 | Apache Spark 社区期待的 Delta Lake 开源了

2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上，Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。Delta Lake 是一个存储层，为 Apache Spark 和大数据 workloads 提供 ACID 事务能力，其通过写和快照隔离之间的乐观并发控制（optimistic concurrency control），在写入数据期间提供一致性的读取，从而为构建在 HDFS 和云存储上的数据湖（data lakes）带来可靠性。Delta Lake 还提供内置数据版本控制，以便轻松回滚。目前 Delta Lake 项目地址为 https://delta.io/，代码维护地址 https://github.com/delta-io/delta。

03

多个供应商使数据和分析无处不在

翻译自 Multiple Vendors Make Data and Analytics Ubiquitous 。

01

抛弃Hadoop，数据湖才能重获新生

十年前，Hadoop 是解决大规模数据分析的“白热化”方法，如今却被企业加速抛弃。曾经顶级的 Hadoop 供应商都在为生存而战，Cloudera 于本月完成了私有化过程，黯然退市。MapR 被 HPE 收购，成为 HPE Ezmeral 平台的一部分，该平台尚未在调查中显示所占据的市场份额。

01

重磅 | Delta Lake正式加入Linux基金会，重塑数据湖存储标准

2019年4月24日在美国旧金山召开的 Spark+AI Summit 2019 会上，Databricks 的联合创始人及 CEO Ali Ghodsi 宣布将 Databricks Runtime 里面的 Delta Lake 基于 Apache License 2.0 协议开源。

03

使用Apache Pulsar + Hudi 构建Lakehouse方案了解下？

Lakehouse最早由Databricks公司提出，其可作为低成本、直接访问云存储并提供传统DBMS管系统性能和ACID事务、版本、审计、索引、缓存、查询优化的数据管理系统，Lakehouse结合数据湖和数据仓库的优点：包括数据湖的低成本存储和开放数据格式访问，数据仓库强大的管理和优化能力。Delta Lake，Apache Hudi和Apache Iceberg是三种构建Lakehouse的技术。

02

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

摘要：今天我们就来解构数据湖的核心需求，同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案，帮助用户更好地针对自身场景来做数据湖方案选型。

02

这个大数据开源项目多半要黄，但我希望它能成。。。

新粉请关注我的公众号今天聊聊这个由Kyligence和Intel一起搞的开源项目Gluten。 Gluten是什么呢？简单来说，这个项目的作用是给Spark引擎的执行赋予调用Native Vectorized engine，比如ClickHouse的能力。要具体来说呢，就是在Spark查询Plan生成的时候，Gluten把一些Spark的查询计划拦截下来，让下面的native 引擎比如ClickHouse去执行。当然，由于native引擎的问题，有些东西干不了，Gluten对干不了的operator重

02

Delta Lake 2.0正式发布，Databricks能赢吗？

新粉请关注我的公众号我收到了一封邮件，具体内容截图如下：简单说，就是官宣Delta Lake 2.0正式发布了。这个距离Databricks的年度大会上面宣布，也有些时日了。 Databricks在发布里面指出了一些新功能。我挑重点讲几个。首先是Change Data Feed。这个东西的作用就是你对Delta Table做的数据改变，它都会生成Change Data Feed。你要是订阅了这个东西，比如说把它放进一个Kafka集群里面，理论上就可以准实施复制出一份数据来。这个东西有点像什么呢

01

【数据湖仓】数据湖和仓库：Databricks 和 Snowflake

是时候将数据分析迁移到云端了。我们比较了 Databricks 和 Snowflake，以评估基于数据湖和基于数据仓库的解决方案之间的差异。在这篇文章中，我们将介绍基于数据仓库和基于数据湖的云大数据解决方案之间的区别。我们通过比较多种云环境中可用的两种流行技术来做到这一点：Databricks 和 Snowflake。正如我们在上一篇文章中了解到的，数据分析平台可以分为多个阶段。上面，我们可以看到一张图片，大致了解了管道中 Snowflake 和 Databricks 的角色。在这里，我们可以将工具分

01

达梦冲刺国产数据库第一个IPO；特斯拉自动驾驶部门裁员约200人；微信推出图片大爆炸功能｜Q资讯

整理｜燕珊被曝裁员、欠薪、停缴社保后，开课吧创始人发表内部信回应；腾讯 QQ 回应大规模账号被盗：A 股或迎“国产数据库第一股”；受影响范围已得到控制，正收集黑产团伙犯罪证据；Meta 今年工程师招聘指标缩减超 3000 人；三星宣布量产 3 纳米制程芯片；索尼中国董事长高桥洋退休，御供俊元接任；特斯拉自动驾驶部门裁员约 200 人；Meta 今年工程师招聘指标缩减超 3000 人；三星宣布量产 3 纳米制程芯片；索尼中国董事长高桥洋退休，御供俊元接任；Databricks 宣布将 Delta Lak

03

重磅！Onehouse 携手微软、谷歌宣布开源 OneTable

湖仓一体架构模式的两个关键支柱是开放性和互操作性。在云存储系统（如S3、GCS、ADLS）上构建数据湖仓，并将数据存储在开放格式中，提供了一个您技术栈中几乎每个数据服务都可以利用的无处不在的基础。

03

聊聊DatabricksSQL和Apache Kyuubi

新粉请关注我的公众号昨天写了一篇文章Apache Kyuubi：一个有趣的大数据开源项目，介绍了网易开源的Apache Kyuubi，是如何把Spark变成为一个数仓的。有一些人联系我，有问我是不是不知道有个产品叫Databricks SQL的，也有问我Databricks SQL和这个比起来怎么样。有这么多问题，我想我应该没办法一个接一个回答。所以我还是简单写一篇文章。首先，大家不用怀疑我知道还是不知道Databricks SQL这个产品。我是不是大数据专家这一点大家可以质疑。我是不是大数据八卦专

04

技术雷达最新动向：超级应用程序趋势不再、平台也需产品化

作者 | Thoughtworks 策划 | Tina 技术雷达是 Thoughtworks 每半年发布一次的技术趋势报告，它持续追踪有趣的技术是如何发展的，我们将其称之为条目。技术雷达使用象限和环对其进行分类，不同象限代表不同种类的技术，而环则代表我们对其作出的成熟度评估。经过半年的追踪与沉淀，Thoughtworks TAB（Thoughtworks 技术咨询委员会）根据我们在多个行业中的实践案例，为技术者产出了第 27 期技术雷达。对百余个技术条目进行分析，阐述它们目前的成熟度，并提供了相应的技

02

Delta Lake - 数据湖的数据可靠性

今天笔者将分享一位大神关于 Delta Lake 的演讲内容。这位是 Apache Spark 的 committer 和 PMC 成员，也是 Spark SQL 的最初创建者，目前领导 Databricks 团队，设计和构建 Structured Streaming 和 Databricks Delta，技术涉及分布式系统、大规模结构化存储和查询优化等方面。

04

基于AIGC写作尝试：深入理解 Apache Hudi

本文的目的是为读者提供全面了解Apache Hudi的知识。具体而言，读者可以了解到Apache Hudi是什么、它的架构如何工作、常见的使用案例以及与之配合工作的最佳实践。此外，读者还将获得有关如何设置和配置Apache Hudi，以及优化其性能的技巧的见解。通过阅读本文，读者应该对Apache Hudi有扎实的理解，并了解如何在其数据处理流程中利用它的优势。

02

数据仓库与数据湖与湖仓一体：概述及比较

随着越来越多的公司依靠数据来推动关键业务决策、改进产品供应并更好地服务客户，公司捕获的数据量比以往任何时候都多。Domo 的这项研究估计，2017 年每天会生成 2.5 百亿字节的数据，到 2025 年，这一数字将增加到 463 艾字节。但如果公司不能快速利用这些数据，那么这些数据又有什么用呢？针对数据分析需求的最佳数据存储这一话题长期以来一直存在争议。

01

Databricks一次拿了SIGMOD两个大奖

新粉请关注我的公众号在最近费城召开的SIGMOD2022上，Databricks当仁不让成为了赢家，一共拿到了两项大奖： 1.Spark拿到了SIGMOD System Award 2.Photon拿到了Best Industry Paper Award SIGMOD和VLDB是数据库领域两大顶级会议。后面还跟着ICDE。有人认为这三大会差不多，但是大部分人还是觉得ICDE差一点。 2020年以前我每年会尽量争取去其中一个会议，以便紧跟形势。疫情起来以后就没去过了。有关SIGMOD是啥就不多介绍了，很

02

深度对比delta、iceberg和hudi三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。Apache Hudi是由Uber的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的fast upsert/delete以及compaction等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg目前看则会显得相对平庸一些，简单说社区关注度暂时比不上delta，功能也不如Hudi丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

03

数据湖框架之技术选型-Hudi、Delta Lake、Iceberg和Paimon

数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析对数据进行加工，例如：大数据处理、实时分析、机器学习，以指导做出更好地决策。

00

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中，由于 Apache Spark 在商业化上取得巨大成功，所以由其背后商业公司 Databricks 推出的 Delta 也显得格外亮眼。Apache Hudi 是由 Uber 的工程师为满足其内部数据分析的需求而设计的数据湖项目，它提供的 fast upsert/delete 以及 compaction 等功能可以说是精准命中广大人民群众的痛点，加上项目各成员积极地社区建设，包括技术细节分享、国内社区推广等等，也在逐步地吸引潜在用户的目光。Apache Iceberg 目前看则会显得相对平庸一些，简单说社区关注度暂时比不上 Delta，功能也不如 Hudi 丰富，但却是一个野心勃勃的项目，因为它具有高度抽象和非常优雅的设计，为成为一个通用的数据湖方案奠定了良好基础。

01

Spark＆AI Summit 2019

他们宣布了一个名为Koalas的新项目，这是Spark的本地“pandas”翻译。现在可以自动将Pandas代码移植到Spark的分布式世界。这将成为人们习惯于pandas环境的绝佳桥梁。许多在线课程/大学使用pandas教授数据科学。现在新数据科学家将减少损失。

02

挑战 Spark 和 Flink？大数据技术栈的突围和战争｜盘点

十年的轮回，正如大数据的发展一般，它既是一个轮回的结束，也是崭新的起点。大数据在过去的二十年中蓬勃发展，从无到有，崛起为最具爆炸性的技术领域之一，逐渐演变成为每个企业不可或缺的基础设施。然而，在这个时刻，我们不禁要问：当前的大数据架构是否已经趋于完美？2023 年，伴随着人工智能的跃变式爆发，数据平台将如何演进，以适应未来的数据使用场景？

01

Apache Hudi 背后商业公司Onehouse宣布2500万美元A轮融资

自推出以来，我们与几位早期用户合作，将我们的产品愿景变为现实，并为他们的生产数据湖提供动力。我们的目标是在 lakehouse 技术之上提供云数据仓库堆栈的易用性和自动化，反过来也为用户提供急需的成本效益和性能优势。作为这一旅程的重要里程碑，我很高兴地宣布由 Addition 和 Greylock 合作伙伴领投的 2500 万美元 A 轮融资。我很荣幸 Jerry Chen (Greylock) 和 Aaron Schildkrout (Addition) 加入我们的董事会。

03

最新大厂数据湖面试题，知识点总结（上万字建议收藏）

本文目录：一、什么是数据湖二、数据湖的发展三、数据湖有哪些优势四、数据湖应该具备哪些能力五、数据湖的实现遇到了哪些问题六、数据湖与数据仓库的区别七、为什么要做数据湖？区别在于？八、数据湖挑战九、湖仓一体十、目前有哪些开源数据湖组件十一、三大数据湖组件对比

02

计算引擎之下，存储之上 - 数据湖初探

随着移动互联网，物联网技术的发展，数据的应用逐渐从 BI 报表可视化往机器学习、预测分析等方向发展，即 BI 到 AI 的转变。

04

spark君第一篇图文讲解Delta源码和实践的文章

Delta 原本是在 Databricks Runtime 里面的一个增值功能，在 spark + AI Summit 2019 大会上，官方以 Apache License 2.0 协议开源。

01

数据湖及其架构的一份笔记

数据湖（Data Lake）是一个存储企业的各种各样原始数据的大型仓库，其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库，通常是对象blob或文件。数据湖通常是企业所有数据的单一存储，包括源系统数据的原始副本，以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库（行和列）的结构化数据，半结构化数据（CSV，日志，XML，JSON），非结构化数据（电子邮件，文档，PDF）和二进制数据（图像，音频，视频）。

01

超越数据湖和数据仓库的新范式：LakeHouse

在Databricks的过去几年中，我们看到了一种新的数据管理范式，该范式出现在许多客户和案例中：LakeHouse。在这篇文章中，我们将描述这种新范式及其相对于先前方案的优势。

04

BDCC- 数据湖体系

数据湖是一种存储系统，底层包括不同的文件格式及湖表格式，可存储大量非结构化和半结构化的原始数据。

03

[LakeHouse] Delta Lake全部开源，聊聊Delta的实现架构

刚刚结束的Data + AI summit上，Databricks宣布将Delta Lake全部开源。

02

【数据湖】在 Azure Data Lake Storage gen2 上构建数据湖

介绍一开始，规划数据湖似乎是一项艰巨的任务——决定如何最好地构建数据湖、选择哪种文件格式、是拥有多个数据湖还是只有一个数据湖、如何保护和管理数据湖。并非所有这些都需要在第一天回答，有些可能通过反复试验来确定。构建数据湖没有明确的指南，每个场景在摄取、处理、消费和治理方面都是独一无二的。在之前的博客中，我介绍了数据湖和 Azure 数据湖存储 (ADLS) gen2 的重要性，但本博客旨在为即将踏上数据湖之旅的人提供指导，涵盖构建数据湖的基本概念和注意事项ADLS gen2 上的数据湖。数据湖规划

01

超硬核解析Apache Hudi 的一致性模型（第二部分）

同样 v5 Hudi 规范说，确保时间戳是单调的实现是实现者的责任。非单调时间戳违反了规范。即便如此，也需要了解多个写入端之间时间戳冲突的影响。

01

基于 Apache Hudi + dbt 构建开放的Lakehouse

本博客的重点展示如何利用增量数据处理和执行字段级更新来构建一个开放式 Lakehouse。我们很高兴地宣布，用户现在可以使用 Apache Hudi + dbt 来构建开放Lakehouse。

01

图灵奖得主回顾与展望：数据库发展 60 年，AI 颠覆在即？

文章概要：数据库领域的两位重量级人物 Michael Stonebraker 和 Andrew Pavlo 联合发表论文，以 20 年为周期洞悉数据库产业发展，盘点数据库领域的发展，本文是第二篇（https://db.cs.cmu.edu/papers/2024/whatgoesaround-sigmodrec2024.pdf），第一篇发表于 2004 年（https://books.google.com/books?hl）。文章结合近 2 年来 AI 蓬勃发展，给出了非常具体的辛辣“评论”。两位大神作者，帮助读者拨开迷雾，了解数据库领域发展的脉络，帮助读者看清数据技术的发展路线。Michael Stonebraker 和 Andrew Pavlo 的总结很有洞见，但笔者不完全同意文中对未来的预测观点，同时认为支撑 RDBMS 和 SQL 的核心支柱正在发生动摇：AI 的出现正在撼动数据库领域的“传统”模式。未来的数据架构和模式的演进，有更多可能性等待业界学者和产研专家们发掘。

01

关于 Lakehouse 的一些笔记和看法

这是最经典的数据仓库模型，模型上面的不多说，可以参考数据仓库理论。从技术角度上来说，

01

Apache Hudi - 我们需要的开放数据湖仓一体平台

毋庸置疑，Hudi 是一个非常成功和有影响力的开源项目，它已经为许多公司提供了 7+ 年，在云上管理多个 EB。但考虑到我们所处的位置以及市场上人为的双头垄断叙事，很高兴看到一些数据来获得观点。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭