开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

向上插入时，spark Hudi作业中记录键中的列超过1列

向上插入时，Spark Hudi作业中记录键中的列超过1列是指在使用Spark Hudi进行数据插入操作时，记录键（也称为主键）中包含多个列的情况。

Spark Hudi是一种基于Apache Hudi的开源数据湖解决方案，用于在大规模数据集上进行增量数据处理和分析。它提供了一种高效的数据管理方式，支持数据的插入、更新、删除等操作，并具有数据一致性、容错性和可伸缩性等特点。

当向上插入数据时，Spark Hudi需要根据记录键来确定数据是否已存在，以避免重复插入。记录键通常由一个或多个列组成，用于唯一标识一条记录。当记录键中包含多个列时，Spark Hudi将根据这些列的值来判断记录是否已存在。

这种设计可以提供更灵活的数据管理能力，例如可以使用多个列来定义记录键，以适应不同的业务需求。同时，多列记录键还可以提高数据的查询效率，因为可以根据多个列进行索引和过滤。

对于这种情况，可以使用Spark Hudi提供的API来定义记录键，并在数据插入操作中指定多个列作为记录键的一部分。具体操作可以参考Spark Hudi的官方文档和示例代码。

推荐的腾讯云相关产品：

腾讯云COS（对象存储服务）：用于存储和管理大规模数据集，提供高可靠性和低延迟的数据访问。链接地址：https://cloud.tencent.com/product/cos
腾讯云EMR（弹性MapReduce服务）：用于在云端快速搭建和管理大数据处理集群，支持Spark、Hadoop等分布式计算框架。链接地址：https://cloud.tencent.com/product/emr
腾讯云CKafka（消息队列服务）：用于实现高可靠性的消息传递和异步通信，支持大规模数据流处理和事件驱动架构。链接地址：https://cloud.tencent.com/product/ckafka

以上是对向上插入时，Spark Hudi作业中记录键中的列超过1列的完善且全面的答案。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Apache Hudi 架构原理与最佳实践

Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。

03

「Hudi系列」Hudi查询&写入&常见问题汇总

2. 「Hudi系列」Apache Hudi入门指南 | SparkSQL+Hive+Presto集成

04

Apache Hudi 0.14.0版本重磅发布！

Apache Hudi 0.14.0 标志着一个重要的里程碑，具有一系列新功能和增强功能。其中包括引入Record Level Index、自动生成记录键、用于增量读取的 hudi_table_changes函数等等。值得注意的是，此版本还包含对 Spark 3.4 的支持。在 Flink 方面，0.14.0 版本带来了一些令人兴奋的功能，例如一致哈希索引支持、支持Flink 1.17 以及支持更新和删除语句。此外此版本还升级了Hudi表版本，提示用户查阅下面提供的迁移指南。我们鼓励用户在采用 0.14.0 版本之前查看重大特性、重大变化和行为变更。

03

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。它的应用比较广，可以做一些数据同步、数据分发和数据采集，还可以做ETL，今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。

03

基于Apache Hudi 的CDC数据入湖

首先我们介绍什么是CDC？CDC的全称是Change data Capture，即变更数据捕获，它是数据库领域非常常见的技术，主要用于捕获数据库的一些变更，然后可以把变更数据发送到下游。它的应用比较广，可以做一些数据同步、数据分发和数据采集，还可以做ETL，今天主要分享的也是把DB数据通过CDC的方式ETL到数据湖。

01

ApacheHudi使用问题汇总（二）

Hudi Cleaner（清理程序）通常在 commit和 deltacommit之后立即运行，删除不再需要的旧文件。如果在使用增量拉取功能，请确保配置了清理项来保留足够数量的commit(提交)，以便可以回退，另一个考虑因素是为长时间运行的作业提供足够的时间来完成运行。否则，Cleaner可能会删除该作业正在读取或可能被其读取的文件，并使该作业失败。通常，默认配置为10会允许每30分钟运行一次提取，以保留长达5（10 * 0.5）个小时的数据。如果以繁进行摄取，或者为查询提供更多运行时间，可增加 hoodie.cleaner.commits.retained配置项的值。

04

Apache Hudi 元数据字段揭秘

Apache Hudi 最初由Uber于 2016 年开发，旨在实现一个交易型数据湖，该数据湖可以快速可靠地支持更新，以支持公司拼车平台的大规模增长。Apache Hudi 现在被业内许多人广泛用于构建一些非常大规模的数据湖。Apache Hudi 为快速变化的环境中管理数据提供了一个有前途的解决方案。

02

加速LakeHouse ACID Upsert的新写时复制方案

随着存储表格式 Apache Hudi、Apache Iceberg 和 Delta Lake 的发展，越来越多的公司正在这些格式的基础上构建其 Lakehouse，以用于许多用例，例如增量摄取。但当数据量增加时，更新插入的速度有时仍然是一个问题。

01

Uber基于Apache Hudi构建PB级数据湖实践

从确保准确预计到达时间到预测最佳交通路线，在Uber平台上提供安全、无缝的运输和交付体验需要可靠、高性能的大规模数据存储和分析。2016年，Uber开发了增量处理框架Apache Hudi，以低延迟和高效率为关键业务数据管道赋能。一年后，我们开源了该解决方案，以使得其他有需要的组织也可以利用Hudi的优势。接着在2019年，我们履行承诺，进一步将其捐赠给了Apache Software Foundation，差不多一年半之后，Apache Hudi毕业成为Apache Software Foundation顶级项目。为纪念这一里程碑，我们想分享Apache Hudi的构建、发布、优化和毕业之旅，以使更大的大数据社区受益。

02

100PB级数据分钟级延迟：Uber大数据平台（下）

到2017年初，我们的大数据平台被整个公司的工程和运营团队使用，使他们能够在同一个地方访问新数据和历史数据。用户可以通过同一个UI门户轻松访问不同大数据平台的数据。我们的计算集群中有超过100PB的数据和100000个vcores。每天支持100,000个Presto查询， 10,000个Spark作业，以及 20,000个Hive查询。我们的Hadoop分析架构遇到了可扩展性限制，许多服务受到高数据延迟的影响。

02

ApacheHudi常见问题汇总

如果你希望将数据快速提取到HDFS或云存储中，Hudi可以提供帮助。另外，如果你的ETL /hive/spark作业很慢或占用大量资源，那么Hudi可以通过提供一种增量式读取和写入数据的方法来提供帮助。

02

记录级别索引：Apache Hudi 针对大型数据集的超快索引

索引是一个关键组件，有助于 Hudi 写入端快速更新和删除，并且它在提高查询执行方面也发挥着关键作用。Hudi提供了多种索引类型，包括全局变化的Bloom索引和Simple索引、利用HBase服务的HBase索引、基于哈希的Bucket索引以及通过元数据表实现的多模态索引。索引的选择取决于表大小、分区数据分布或流量模式等因素，其中特定索引可能更适合更简单的操作或更好的性能。用户在为不同表选择索引类型时经常面临权衡，因为还没有一种能够以最小的操作开销促进写入和读取的通用性能索引。

01

万字长文：基于Apache Hudi + Flink多流拼接(大宽表)最佳实践

业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表，但这种解决方案在实践中面临较多挑战，主要可分为以下两种情况：

03

Grab 基于 Apache Hudi 实现近乎实时的数据分析

在数据处理领域，数据分析师在数据湖上运行其即席查询。数据湖充当分析和生产环境之间的接口，可防止下游查询影响上游数据引入管道。为了确保数据湖中的数据处理效率，选择合适的存储格式至关重要。

01

数据湖 | Apache Hudi 设计与架构最强解读

Apache Hudi(简称：Hudi)允许您在现有的hadoop兼容存储之上存储大量数据，同时提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。

02

Data Lake 三剑客—Delta、Hudi、Iceberg 对比分析

定性上讲，三者均为 Data Lake 的数据存储中间层，其数据管理的功能均是基于一系列的 meta 文件。meta 文件的角色类似于数据库的 catalog/wal，起到 schema 管理、事务管理和数据管理的功能。与数据库不同的是，这些 meta 文件是与数据文件一起存放在存储引擎中的，用户可以直接看到。这种做法直接继承了大数据分析中数据对用户可见的传统，但是无形中也增加了数据被不小心破坏的风险。一旦某个用户不小心删了 meta 目录，表就被破坏了，想要恢复难度非常大。

02

Hudi：Apache Hadoop上的增量处理框架

随着ApacheParquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而，为了实现这一点，这需要在HDFS中实现高效且低延迟的数据摄取及数据准备。

01

ApacheHudi使用问题汇总（一）

通常，你会从源获取部分更新/插入，然后对Hudi数据集执行写入操作。如果从其他标准来源（如Kafka或tailf DFS）中提取数据，那么DeltaStreamer将会非常有用，其提供了一种简单的自我管理解决方案，可将数据写入Hudi。你还可以自己编写代码，使用Spark数据源API从自定义源获取数据，并使用Hudi数据源写入Hudi。

02

如何将数据更快导入Apache Hudi？

Apache Hudi除了支持insert和upsert外，还支持bulk_insert操作将数据摄入Hudi表，对于bulk_insert操作有不同的使用模式，本篇博客将阐述bulk_insert不同的模式以及与其他操作的比较。

03

hudi性能测试

在本节中，我们将介绍一些有关Hudi插入更新、增量提取的实际性能数据，并将其与实现这些任务的其它传统工具进行比较。

05

使用Apache Hudi构建大规模、事务性数据湖

一个近期由Hudi PMC & Uber Senior Engineering Manager Nishith Agarwal分享的Talk

01

Hudi小文件问题处理和生产调优个人笔记

Apache Hudi提供的一个关键特性是自我管理文件大小，这样用户就不需要担心手动维护表。

02

apache hudi 0.13.0版本重磅发布

Apache Hudi 0.13.0引入了一系列新特性，包括Metaserver, Change Data Capture, new Record Merge API, new sources for Deltastreamer等。虽然此版本不需要表版本升级，但希望用户在使用 0.13.0 版本之前按照下面的迁移指南采取相关重大更改和行为更改的操作。

01

基于 Apache Hudi 构建增量和无限回放事件流的 OLAP 平台

在本博客中，我们将讨论在构建流数据平台时如何利用 Hudi 的两个最令人难以置信的能力。

02

hudi中的写操作

在本节中，我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改，以及如何使用Hudi数据源通过upserts加速大型Spark作业。然后可以使用各种查询引擎查询这些表。

01

写入 Hudi 数据集

这一节我们将介绍使用DeltaStreamer工具从外部源甚至其他Hudi数据集摄取新更改的方法，以及通过使用Hudi数据源的upserts加快大型Spark作业的方法。对于此类数据集，我们可以使用各种查询引擎查询它们。

04

Apache Hudi | 统一批和近实时分析的增量处理框架

随着Apache Parquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展，Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而，为了实现这一点，这需要在HDFS中实现高效且低延迟的数据摄取及数据准备。

04

查询hudi数据集

从概念上讲，Hudi物理存储一次数据到DFS上，同时在其上提供三个逻辑视图，如之前所述。数据集同步到Hive Metastore后，它将提供由Hudi的自定义输入格式支持的Hive外部表。一旦提供了适当的Hudi捆绑包，就可以通过Hive、Spark和Presto之类的常用查询引擎来查询数据集。

03

沃尔玛基于 Apache Hudi 构建 Lakehouse

开源数据峰会上最有趣的会议之一是三级数据工程师 Ankur Ranjan 和高级数据工程师 Ayush Bijawat 的演讲，介绍他们在领先零售商沃尔玛中使用 Apache Hudi。

01

一文聊透Apache Hudi的索引设计与应用

Apache Hudi索引在数据读和写的过程中都有应用。读的过程主要是查询引擎利用MetaDataTable使用索引进行Data Skipping以提高查找速度;写的过程主要应用在upsert写上，即利用索引查找该纪录是新增（I）还是更新(U)，以提高写入过程中纪录的打标（tag）速度。

01

深度对比 Apache CarbonData、Hudi 和 Open Delta 三大开源数据湖方案

摘要：今天我们就来解构数据湖的核心需求，同时深度对比Apache CarbonData、Hudi和Open Delta三大解决方案，帮助用户更好地针对自身场景来做数据湖方案选型。

02

Apache Hudi和Presto的前世今生

一篇由Apache Hudi PMC Bhavani Sudha Saktheeswaran和AWS Presto团队工程师Brandon Scheller分享Apache Hudi和Presto集成的一篇文章。

02

基于 Apache Hudi 构建分析型数据湖

为了更好地发展业务，每个组织都在迅速采用分析。在分析过程的帮助下，产品团队正在接收来自用户的反馈，并能够以更快的速度交付新功能。通过分析提供的对用户的更深入了解，营销团队能够调整他们的活动以针对特定受众。只有当我们能够大规模提供分析时，这一切才有可能。

02

大数据实用组件Hudi--实现管理大型分析数据集在HDFS上的存储

问题导读 1.什么是Hudi？ 2.Hudi对HDFS可以实现哪些操作？ 3.Hudi与其它组件对比有哪些特点？前两天我们About云群大佬公司想了解Hudi ，并上线使用。Hudi 或许大家了解的比较少，这里给大家介绍下Hudi这个非常实用和有潜力的组件。 Hudi是在HDFS的基础上，对HDFS的管理和操作。支持在Hadoop上执行upserts/insert/delete操作。这里大家可能觉得比较抽象，那么它到底解决了哪些问题？ Hudi解决了我们那些痛点 1.实时获取新增数据你是否遇到过这样的问题，使用Sqoop获取Mysql日志或则数据，然后将新增数据迁移到Hive或则HDFS。对于新增的数据，有不少公司确实是这么做的，比较高级点的，通过Shell调用Sqoop迁移数据实现自动化，但是这里面有很多的坑和难点，相对来说工作量也不少，那么有没有更好的解决办法那？---Hudi可以解决。Hudi可以实时获取新数据。 2.实时查询、分析对于HDFS数据，我们要查询数据，是需要使用MapReduce的，我们使用MapReduce查询，这几乎是让我们难以接受的，有没有近实时的方案，有没有更好的解决方案--Hudi。什么是Hudi Apache Hudi代表Hadoop Upserts anD Incrementals，管理大型分析数据集在HDFS上的存储。Hudi的主要目的是高效减少摄取过程中的数据延迟。由Uber开发并开源，HDFS上的分析数据集通过两种类型的表提供服务：读优化表（Read Optimized Table）和近实时表（Near-Real-Time Table）。读优化表的主要目的是通过列式存储提供查询性能，而近实时表则提供实时（基于行的存储和列式存储的组合）查询。 Hudi是一个开源Spark库（基于Spark2.x），用于在Hadoop上执行诸如更新，插入和删除之类的操作。它还允许用户仅摄取更改的数据，从而提高查询效率。它可以像任何作业一样进一步水平扩展，并将数据集直接存储在HDFS上。 Hudi的作用上面还是比较抽象的话，接着我们来看下图，更形象的来了解Hudi

03

超硬核解析Apache Hudi 的一致性模型（第一部分）

Hudi 更复杂并不意味着 Iceberg 更好，只是需要更多的工作来内化设计。复杂性的一个关键原因是 Hudi 在核心规范中加入了更多功能。Iceberg 目前只是一种表格式，而 Hudi 是一种具有多种查询类型的完全成熟的托管表格式。如果精通 Delta Lake 内部结构，会发现 Hudi 的设计与 Delta Lake 的设计有许多相似之处。

01

Spark读取变更Hudi数据集Schema实现分析

Hudi支持上层Hive/Presto/Spark查询引擎，其中使用Spark读取Hudi数据集方法非常简单，在spark-shell或应用代码中，通过 spark.sqlContext.read.format("org.apache.hudi").load便可加载Hudi数据集，本篇文章分析具体的实现。

02

Apache Hudi 0.10.0版本重磅发布！

在发布的Apache Hudi 0.10.0版本中共解决了388个issue，包括众多重磅特性支持以及Bug修复。

02

Apache Hudi 0.9.0 版本发布

Apache Hudi 0.9.0实验性地支持使用Spark SQL进行DDL/DML操作，朝着让所有用户(非工程师、分析师等)更容易访问和操作Hudi迈出了一大步。用户可以直接使用CREATE TABLE ... USING HUDI以及CREATE TABLE ... AS SELECT语法来在像Hive的catalogs中创建和管理表。用户然后可以使用INSERT，UPDATE, MERGE INTO以及DELETE sql语法来操纵数据。除此之外，INSERT OVERWRITE语句可用于覆盖表或分区中现有的批处理ETL管道中的现有数据。更多信息，点击SparkSQL选项卡查看我们的文档。请参阅RFC-25了解更多实现细节。

02

印尼医疗龙头企业Halodoc的数据平台转型之Lakehouse架构

在 Halodoc，我们始终致力于为最终用户简化医疗保健服务，随着公司的发展，我们不断构建和提供新功能。我们两年前建立的可能无法支持我们今天管理的数据量，以解决我们决定改进数据平台架构的问题。在我们之前的博客中，我们谈到了现有平台的挑战以及为什么我们需要采用 Lake House 架构来支持业务和利益相关者以轻松访问数据。在这篇博客中，我们将讨论我们的新架构、涉及的组件和不同的策略，以拥有一个可扩展的数据平台。

02

Apache Hudi 0.11 版本重磅发布，新特性速览!

在 0.11.0 中，默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing，以提高在大型 Hudi 表上的分区和文件listing的性能。在reader方面，用户需要将其设置为 true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此，使用异步表服务部署 Hudi 的用户需要配置锁服务。如果此功能与您无关，您可以通过额外设置这个配置 hoodie.metadata.enable=false 像以前一样使用 Hudi。

03

Apache Hudi 0.15.0 版本发布

此版本保留与 0.14.0 版本相同的表版本 (6)，如果从 0.14.0 升级，则无需升级表版本。有一些模块和 API 更改以及行为更改，如下所述，用户在使用 0.15.0 版本之前应采取相应的操作。

01

Apache Hudi - 我们需要的开放数据湖仓一体平台

毋庸置疑，Hudi 是一个非常成功和有影响力的开源项目，它已经为许多公司提供了 7+ 年，在云上管理多个 EB。但考虑到我们所处的位置以及市场上人为的双头垄断叙事，很高兴看到一些数据来获得观点。

01

Uber 基于Apache Hudi的超级数据基础设施

Uber 是一个全球品牌，在全球 10,000 多个城市运营。该公司运营规模庞大，每月为超过 1.37 亿用户提供服务，每天为 2500 万次出行提供服务。数据驱动——乘客、司机和企业经营者采取的每一个行动。在如此规模的数据中，将所有这些活动的原始数据转化为业务洞察的技术挑战尤其困难，尤其是以高效且可靠的方式做到这一点。

01

基于Apache Hudi和Debezium构建CDC入湖管道

当想要对来自事务数据库（如 Postgres 或 MySQL）的数据执行分析时，通常需要通过称为更改数据捕获[4] CDC的过程将此数据引入数据仓库或数据湖等 OLAP 系统。Debezium 是一种流行的工具，它使 CDC 变得简单，其提供了一种通过读取更改日志[5]来捕获数据库中行级更改的方法，通过这种方式 Debezium 可以避免增加数据库上的 CPU 负载，并确保捕获包括删除在内的所有变更。现在 Apache Hudi[6] 提供了 Debezium 源连接器，CDC 引入数据湖比以往任何时候都更容易，因为它具有一些独特的差异化功能[7]。Hudi 可在数据湖上实现高效的更新、合并和删除事务。Hudi 独特地提供了 Merge-On-Read[8] 写入器，与使用 Spark 或 Flink 的典型数据湖写入器相比，该写入器可以显着降低摄取延迟[9]。最后，Apache Hudi 提供增量查询[10]，因此在从数据库中捕获更改后可以在所有后续 ETL 管道中以增量方式处理这些更改下游。

02

Lakehouse 特性对比 | Apache Hudi vs Delta Lake vs Apache Iceberg

随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceberg。

02

一文带你了解Lakehouse的并发控制：我们是否过于乐观？

如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止，实际完成了什么？目前有哪些方法？它们在现实世界中的表现如何？这些问题是本博客的重点。

02

一文带你了解Lakehouse的并发控制：我们是否过于乐观？

如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止，实际完成了什么？目前有哪些方法？它们在现实世界中的表现如何？这些问题是本博客的重点。

03

[离线计算-Spark|Hive] HDFS小文件处理

HDFS 小文件过多会对hadoop 扩展性以及稳定性造成影响, 因为要在namenode 上存储维护大量元信息.

02

Apache Hudi重磅RFC解读之存量表高效迁移机制

随着Apache Hudi变得越来越流行，一个挑战就是用户如何将存量的历史表迁移到Apache Hudi，Apache Hudi维护了记录级别的元数据以便提供upserts和增量拉取的核心能力。为利用Hudi的upsert和增量拉取能力，用户需要重写整个数据集让其成为Hudi表。此RFC提供一个无需重写整张表的高效迁移机制。

02

Apache Hudi 0.11.0版本重磅发布！

在 0.11.0 中，我们默认为 Spark writer 启用具有同步更新的元数据表和基于元数据表的file listing，以提高在大型 Hudi 表上的分区和文件 listing 的性能。在reader方面，用户需要将其设置为 hoodie.metadata.enable = true 以从中受益。元数据表和相关文件listing 仍然可以通过设置hoodie.metadata.enable=false来关闭此功能。因此，使用异步表服务部署 Hudi 的用户需要配置锁服务。如果无需使用此功能，可以通过额外设置这个配置 hoodie.metadata.enable = false 像以前一样使用 Hudi。

04

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭