在Apache Hudi - Glue作业中删除

Apache Hudi是一个开源的数据湖解决方案，它提供了一种可靠、高效的方式来管理和处理大规模数据湖中的数据。Apache Hudi的核心功能包括数据变更捕获、增量数据处理、数据合并和数据查询。

在Apache Hudi中，Glue作业是一种用于数据处理和转换的AWS Glue服务。Glue作业可以通过Apache Spark进行数据处理，并且可以与Apache Hudi集成，以实现数据湖中的数据删除操作。

删除操作是指从数据湖中删除特定数据记录或数据集。在Apache Hudi - Glue作业中删除数据可以通过以下步骤完成：

首先，创建一个Glue作业，并配置作业的输入和输出数据源。输入数据源可以是数据湖中的数据集，输出数据源可以是一个新的数据集或者是覆盖原始数据集。
在Glue作业中，使用Apache Spark的API来加载数据湖中的数据集，并根据需要进行筛选和过滤。
使用Apache Hudi的API来执行删除操作。Apache Hudi提供了一些API方法，如delete和deleteByKey，可以根据条件或主键删除数据记录。
在删除操作完成后，将处理后的数据保存到输出数据源中。可以选择将数据保存到新的数据集中，或者覆盖原始数据集。

Apache Hudi的优势在于其支持增量数据处理和数据合并，可以高效地处理大规模数据湖中的数据。它还提供了数据版本控制和数据索引功能，可以方便地进行数据查询和分析。

推荐的腾讯云相关产品是腾讯云数据湖服务（Tencent Cloud Data Lake），它提供了一种托管的数据湖解决方案，可以帮助用户快速构建和管理数据湖。腾讯云数据湖服务基于Apache Hudi和Apache Spark，提供了数据湖的存储、计算和查询功能。

更多关于腾讯云数据湖服务的信息和产品介绍，可以访问以下链接地址：腾讯云数据湖服务。

在Apache Hudi - Glue作业中删除

、、

我必须建立一个胶水作业来更新和删除雅典娜表中的旧行。当我运行我的删除作业时，返回一个错误： AnalysisException: 'Unable to infer schema for Parquet.view_dyf_output where id in (select distinct id from view_dyf where op like 'D')").count() 我有2个数据源；第一个旧的雅典娜表中的数据必须更新或删除

浏览 159提问于2021-07-01得票数 0

1回答

Hoodie (Hudi)预组合字段在NULL上失败

、、、、

我为Hudi CDC编写的AWS Glue作业在一个预组合字段的列上失败了(请参阅下面的错误消息)。我已经验证了这个列上没有空值(它有一个后更新触发器和默认的NOW() set)。据我所知，Hudi只在DELETE操作上传输主键，而没有其他任何内容。为什么Hudi在DELETE操作中使用NULL值的预组合失败？我怎么才能解决这个问题？我错过了一个选择还是什么？:logError(94))：阶段46.0中任务2.0中

浏览 4提问于2022-06-06得票数 0

回答已采纳

5回答

以s3为数据的亚马逊网络服务中的ETL流水线如何处理增量更新

、、、、

我已经在AWS中设置了ETL管道，如下所示感谢您的任何投入。

浏览 0提问于2017-09-06得票数 4

1回答

AWS Glue-如何在s3存储桶中仅输出一个最新文件

、、、

我使用AWS Glue和Apache Hudi将RDS中的数据复制到S3。如果我执行以下任务，将在S3存储桶(basePath)中生成2个拼图文件(初始文件和更新文件)。在这种情况下，我只想要一个最新的文件，并想删除旧的。inserts = sc._jvm.org.apache.hudi.

浏览 27提问于2021-11-30得票数 0

2回答

有没有办法在AWS glue上使用Apache* Hudi？*

、、、

尝试探索使用S3作为源进行增量加载的apach hudi，然后通过AWS glue job将输出保存到S3中的不同位置。作为起点，有没有什么博客/文章可以帮助我们呢？

浏览 30提问于2021-04-28得票数 1

1回答

Hudi-Glue-与EMR集群集成

我希望在AWS中使用SCD2、Hudi和Glue来实现S3逻辑。有人能建议如何在没有电子病历的情况下实现吗？还有在AWS中安装/部署没有EMR的hudi的方法。谢谢

浏览 4提问于2022-04-08得票数 0

1回答

java.lang.ClassNotFoundException:未能找到数据源: hudi。请在http://spark.apache.org/third-party-projects.html找到包裹

、、

Please find packages at http://spark.apache.org/third-party-projects.html val hudiIncQueryDF = spark.read.format("hudi").load( "pa

浏览 20提问于2022-06-13得票数 4

1回答

使用spark递增聚合hudi表值

、、、、

我有一个火花流作业，每10秒加载一次apache hudi表中的数据。如果该行已经存在，它将更新hudi表中的行。实际上，它正在执行重新插入操作。但是，在hudi表中，有一个an列，该列也使用新值进行更新。hudi是否支持增量聚合，不使用外部缓存/db？

浏览 9提问于2022-07-13得票数 1

1回答

EMR Hudi无法创建配置单元连接jdbc:hive2://localhost:10000/

、、、、

正在尝试将hudi表保存在启用了配置单元同步的Jupyter笔记本中。我使用的是EMR: 5.28.0，并启用了AWS Glue作为目录： # Create a DataFrame [hoodie.datasource.hive_sync.partition_fields': 'creation_date', 'hoodie.datasource.hive_sync.partition_extractor_class'

浏览 54提问于2021-10-07得票数 0

1回答

org.apache.flink.table.api.TableException:不支持的查询:合并到

、、

我正在做一个Flink流作业，我需要在Hudi表中插入数据。我使用合并进入查询来在Hudi表中插入数据。"ON target.id = s0.id " +此查询在火花壳中运行良好But it is giving me Exception in thread "main"

浏览 5提问于2022-08-31得票数 0

回答已采纳

1回答

运行Apache* Hudi deltastreamer时出错*

、、、

我正在尝试在AWS EMR上运行Hudi deltastreamer。按照此博客中的步骤操作。key=HUDI 但是当我运行下面的spark提交时，错误出现了： Exception in thread "main" org.apache.hudi.com.beust.jcommander.ParameterExceptionat org.apache.hudi.com.beust.jcommander.JCommander.par

浏览 114提问于2020-01-31得票数 2

1回答

在读取orc文件时，最新版本的Hudi* (0.7.0，0.6.0)是否可以与Spark 2.3.0一起使用？*

、、

作业失败，并显示以下错误: org.apache.spark.sql.types.Decimal$.minBytesForPrecision()[I :java.lang.NoSuchMethodError在我正在使用的集群中，我们使用的是Spark 2.3.0，没有立即升级的计划。想要检查是否有任何方法可以让Hudi 0.7.0与Spark 2.3.0一起工作？注意:我可以使用带有hudi- Spark -bundle-0.5.0-incubating.jar的spark 2.3.0

浏览 54提问于2021-02-22得票数 0

1回答

如何在dataproc上运行hudi并写入gcs bucket

、、

我想使用hudi从dataproc写入gcs存储桶。要使用hudi写入gcs，需要将prop fs.defaultFS设置为值gs:// (https://hudi.apache.org/docs/gcs_hoodie) 但是，当我将dataproc上的fs.defaultFS设置为gcs bucket时，我在启动时收到与作业无法找到我的jar相关的错误。它在一个gs:/前缀中查找，大概是因为我已经覆

浏览 49提问于2021-04-12得票数 2

1回答

如何通过Hudi* CLI更改Hudi表版本*

如何通过Hudi更改表版本？在表的desc中，我看到它是version=3，但是我想使用来写入表，所以我想将表设置为version=2。org.apache</

浏览 32提问于2022-03-02得票数 0

1回答

最后/最后一次提交:使用pyspark获得hudi的最新提交

、、、、

我每小时都使用spark hudi进行增量查询，每次都将增量查询的开始和结束时间保存在db(例如mysql)中。': hudi_end_commit但我不知道如何在pyspark(python)中找到hudi_end_commit。在Java中，我可以对helper类HoodieDataSourceHelpers做同样的操作，例如： String hudi_end_commit = HoodieDataSourceHelpers.latestCommit

浏览 7提问于2022-05-16得票数 1

1回答

Hudi分区和upsert不工作

、

这个配置中的错误是什么，分区键在HUDI中不起作用，并且在执行upsert时，hudi数据集中的所有记录都会更新。所以不能从表中提取增量。commonConfig = {'className' : 'org.apache.hudi','hoodie.datasour

浏览 50提问于2021-08-29得票数 1

3回答

Databricks - java.lang.NoClassDefFoundError: org/json/JSONException

、、、

我们无法解决以下问题:我们试图使用Apache将数据保存到存储区。问题是当我们上传一个包含依赖项中的org.json包的胖jar时，df.save()应用程序正在失败。367) at org.apache.hudi.hive.HoodieHiveClient.createTable) at org.<e

浏览 2提问于2020-11-03得票数 0

回答已采纳

1回答

在Apache表中编写火花DataFrame

、、

我刚开始使用hudi，并试图使用spark在Hudi表中编写我的数据。第一次输入，我没有创建任何表，也没有在覆盖模式下写入，所以我希望它会创建hudi表，我正在编写下面的代码。spark-shell \ --packages org.apache.hudi:hudi-spark-bundle_2.12:0.7.0,org.apache.spark:spark-avroa Spark Session for <

浏览 1提问于2021-03-19得票数 2

回答已采纳

1回答

胶水运行模式

、

在哪种模式下运行胶水作业，意味着我们在独立、集群或本地模式下运行火花作业。当涉及到胶水作业时，它是什么模式，考虑到它也是一个火花呢作业。

浏览 4提问于2022-05-22得票数 0

回答已采纳

1回答

Dataproc上的Apache Hudi

、、、

有在Dataproc集群上部署Apache的指南吗？我正试图通过进行部署，但我做不到。' --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'警告org.apache.spark.sql.hudi.HoodieSparkSessionExtensionorg.apache.spark.sql.hudi</em

浏览 30提问于2022-12-01得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

在Apache Hudi - Glue作业中删除

相关·内容

在Apache Hudi - Glue作业中删除

Hoodie (Hudi)预组合字段在NULL上失败

以s3为数据的亚马逊网络服务中的ETL流水线如何处理增量更新

AWS Glue-如何在s3存储桶中仅输出一个最新文件

有没有办法在AWS glue上使用Apache* Hudi？*

Hudi-Glue-与EMR集群集成

java.lang.ClassNotFoundException:未能找到数据源: hudi。请在http://spark.apache.org/third-party-projects.html找到包裹

使用spark递增聚合hudi表值

EMR Hudi无法创建配置单元连接jdbc:hive2://localhost:10000/

org.apache.flink.table.api.TableException:不支持的查询:合并到

运行Apache* Hudi deltastreamer时出错*

在读取orc文件时，最新版本的Hudi* (0.7.0，0.6.0)是否可以与Spark 2.3.0一起使用？*

如何在dataproc上运行hudi并写入gcs bucket

如何通过Hudi* CLI更改Hudi表版本*

最后/最后一次提交:使用pyspark获得hudi的最新提交

Hudi分区和upsert不工作

Databricks - java.lang.NoClassDefFoundError: org/json/JSONException

在Apache表中编写火花DataFrame

胶水运行模式

Dataproc上的Apache Hudi

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐