hudi湖仓一体 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

湖泊形成控制表的底层格式/技术

amazon-web-services、architecture、aws-lake-formation

湖的治理表使用什么数据格式/技术？会是Hudi吗？如果不是Hudi，新的格式/技术与Hudi相比如何？

浏览 5提问于2021-02-03得票数 3

1回答

如何在ADLS Gen2上进行批量作业全局提交？

azure、apache-spark、apache-spark-sql、azure-storage

我有火花批处理应用程序写入ADLS Gen2 (层次结构)。因此，如果批处理失败，我们有部分数据，在重试时，我们将得到数据重复。我们的规模真的很大，所以回滚(删除数据)对我们来说不是一个选择，搜索将花费大量的时间。现在，我们正在考虑写到一些临时目的地，只有在整个工作完成后才会移动文件，但是我们希望找到一些更优雅的解决方案(如果存在的话)。

浏览 2提问于2022-07-24得票数 1

回答已采纳

2回答

如何从debezium事件生成的有效负载中删除“SQL”键，以便在SQL server中更新

sql-server、apache-kafka、apache-kafka-connect、debezium、apache-hudi

用例因此，我想通过消除“前”部分将有效载荷的大小减少到一半，那么我们如何才能做到这一点呢？

浏览 11提问于2022-09-30得票数 0

回答已采纳

2回答

S3湖形成治理表和databricks增量表之间的主要区别是什么？

amazon-s3、databricks、delta-lake、aws-lake-formation

S3湖形成治理表和databricks增量表之间的主要区别是什么？他们看起来很像。

浏览 10提问于2021-12-06得票数 8

回答已采纳

1回答

更新存储在亚马逊网络服务S3中的数据的模式/数据的策略

amazon-web-services、amazon-s3、aws-glue、amazon-athena

在我的组织中，我们使用亚马逊网络服务S3、和的堆栈来推动一些内部指标的报告。通常，这个堆栈非常适合用于报告原始数据(存储在S3中)的快速设置。我们遇到的问题是，如果我们发现需要以某种方式更新已经存储在S3中的数据，该怎么办。例如，我们希望更新具有特定字符串的列中的值，以更新该值。我能想到的唯一一件事就是编写一个自定义工具，它遍历S3存储桶，加载文件，提供转换，然后将其放回原处，覆盖原始文件。不过，似乎必须有更好的方法。

浏览 0提问于2020-07-17得票数 1

2回答

在亚马逊S3中实现CDC

amazon-web-services、amazon-s3、aws-lambda、cdc

作为我们当前项目的一部分，我们正在尝试在亚马逊S3存储桶中创建一个数据湖。将会有另一个S3层，它将包含在上一层中发生的CDC。架构团队建议使用Talend或Streamsets。

浏览 1提问于2020-01-30得票数 0

4回答

通过Javascript regex选择所有不是特定单词的单词？

javascript、regex

纳姆拉库斯湖，在条件和条件下，累积无无。乌贼，乌贼。在维里特，三位一体的不，港口在紫色。长春花，非苏打水，非苏铁。Nullam augue neque，lacinia quis commodo a .库拉比图尔·欧盟的三位一体。

浏览 6提问于2011-12-02得票数 2

回答已采纳

1回答

为什么德尔塔湖似乎存储了这么多多余的信息？

apache-spark、amazon-s3、delta-lake

我刚开始使用三角湖，所以我的心智模型可能会失效--我问这个问题是为了验证/反驳它。inserts = sc._jvm.org.apache.hudi.QuickstartUtils.convertToStringList(dataGen.generateInserts(200)) df = spark.read.json

浏览 1提问于2020-10-19得票数 2

回答已采纳

2回答

使用Hudi时，无法在电子病历中的AWS Glue上运行spark.sql

amazon-emr、aws-glue、aws-glue-data-catalog、apache-hudi

我们的设置配置为在亚马逊网络服务上有一个默认的数据湖，使用S3作为存储，并将Glue Catalog作为我们的metastore。我们开始使用Apache Hudi，我们可以在de AWS documentation之后让它工作。问题是，当使用文档中指出的配置和JAR时，我们无法在Glue元存储上运行spark.sql。我们使用boto3创建群集 emr.run_job_flow( LogUri='s3n://mybucket&#

浏览 101提问于2021-04-10得票数 0

回答已采纳

3回答