Delta Lake: Delta表的下一版本如何不携带删除的记录？

、、、

我们每天在delta lake表(表名: dst1)中加载源文件作为时间序列数据。如果deltalake表不存在，我们将创建一个表。如果表确实存在，我们将合并新数据作为时间序列数据。dtable} d USING df ds ON {jkey} WHEN MATCHED THEN UPDATE SET * WHEN NOT MATCHED THEN INSERT *") 来自day1上的源数据来自day2上的源数据： ?

浏览 20提问于2021-09-23得票数 2

回答已采纳

2回答

AWS Glue能否抓取Delta Lake表数据？

、、、

根据Databricks的article，将delta lake与AWS Glue集成是可能的。然而，我不确定是否有可能在Databricks平台之外也这样做。是不是有人这么做了？另外，是否可以使用Glue爬虫添加与Delta Lake相关的元数据？

浏览 16提问于2019-10-02得票数 8

2回答

如何一次查询三角洲湖表中的所有版本，以跟踪对特定ID所做的更改

、、

我有一个带有salary的employee表，它是使用delta lake管理的所有employee的表。FROM DELTA.`EMPLOYEE`但是，我想知道在delta表

浏览 3提问于2020-09-14得票数 3

1回答

从本地Spark作业连接到Azure Data Lake Gen 2

、、、、

我试图从本地的Spark作业连接到我的ADLS Gen 2数据湖，以读取一些Databricks增量表，我之前通过Databricks Notebook存储了这些表，但我收到了一个非常奇怪的异常，我无法对其进行排序FileSystem.java:479) at org.apache.spark.sql.delta.DeltaTableUtils我使用的是io

浏览 21提问于2019-09-12得票数 2

4回答

没有Databricks运行时的Delta Lake

、、、

可以使用Delta Lake而不依赖于Databricks Runtime吗？(我的意思是，是否可以仅在prem上使用带有hdfs和spark的delta-lake？)

浏览 10提问于2020-03-24得票数 5

1回答

基于结构化流媒体作业流水线的delta lake最优分区策略

、、

在我的场景中，我有两个结构化的流作业，一个写到Delta lake表，第二个作业从delta lake表读取，处理它并写入另一个表。对于结构化流(它只需要挑选在最后一个流批次之后插入的新记录)，我应该创建的分区的最佳选项是什么。如果我在我的表中使用CreatedDateTime列，做下一个作业，从这个表

浏览 3提问于2019-09-21得票数 0

1回答

从数据库DBFS中删除记录

、、

我正在尝试删除位于DBFS中的Databricks Delta Lake中的一些记录。我只有路径。没有保存为表，有没有办法从增量文件中删除记录？谢谢

浏览 24提问于2021-07-08得票数 3

2回答

Pyspark: Delta表作为流源，怎么做？

、、、

我在readStream的增量表上遇到了问题。什么是预期的，参考来自以下链接https://docs.databricks.com/delta/delta-streaming.html#delta-table-as-a-stream-sourceEx： spark.readStream.format("delta").table("events") -- As expected, should work f

浏览 34提问于2020-06-12得票数 5

回答已采纳

1回答

是否有办法从delta* lake删除所有版本的记录？*

、

我们正在研究如何在三角洲湖实施“被遗忘的权利”。基本上，关键功能是从delta、(包括早期版本的)删除记录(从请求删除数据的人那里删除)。我原以为VACUUM能做到这一点，但据我所知，VACUUM删除了整个表。因此，我失去了所有其他记录的历史，我想保留这些记录。演示了我想做的事情。

浏览 2提问于2021-09-28得票数 1

1回答

如何在Delta* Lake中删除旧版本的表*

、

正如我从文档中了解到的，delta允许回滚，或者如他们所说的那样，可以回滚到某个特定版本的表。但是，我如何确保删除数据会在不创建新版本的情况下将其删除？

浏览 38提问于2019-10-01得票数 2

回答已采纳

2回答

Databricks:将镶木镶嵌表转换为增量表

、、、

我正在尝试将Databricks (Azure上的存储)中的现有表转换为Delta。根据提供的信息，这非常简单，我编写了两个sql语句来实现这一点：convert to delta parquet.为了验证，我对表中的一些记录运行了delete操作，这给出了错误： A transaction log for Databricks Delta wa

浏览 2提问于2020-07-15得票数 2

1回答

Delta Lake表元数据

Delta Lake在哪里存储表元数据信息。我在我的独立机器上使用的是spark 2.6(不是Databricks)。我的假设是，如果我重启spark，在delta中创建的表将被删除(尝试使用Jupyter notebook)。但事实并非如此。

浏览 31提问于2020-07-21得票数 1

回答已采纳

1回答

寻找用于AVRO .avdl文件的ERD (Viz)工具

、、

有没有人推荐一个接受.avdl文件的ER可视化程序。我需要它在本地接受avdl文件而不是json格式。我看过一些(Hackolade，Dataedo)，但它们似乎都只接受.json文件。

浏览 6提问于2021-09-21得票数 0

2回答

在Azure Databricks群集重新启动之前不会显示记录

、、

在过去的几个月里，我们一直在使用Azure Databricks / Delta lake，最近开始发现加载记录的一些奇怪行为，特别是除非重新启动集群或指定特定版本号，否则不会返回最新记录。例如(不返回任何记录) df_nw = spark.read.format('delta').load('/mnt/xxxx') display(df_nw.filter(&

浏览 28提问于2021-09-06得票数 1

2回答

是否有方法恢复Azure Databricks中已删除的数据？

在没有意识到的情况下，shift+enter运行细胞。我正在写一个delete from table，然后按下了shift enter键，这删除了表中的所有数据。

浏览 7提问于2020-08-01得票数 1

1回答

何时禁用aws放大或AppSync冲突解决

、、、、

我注意到在新的扩容图my转换器v2中，AppSync冲突解决方案默认为所有表()启用，我想知道如果禁用API冲突解决方案是否会带来任何伤害？我正在构建一个类似于评级应用程序的yelp，如果两个客户端试图改变相同的对象，我认为让它们同时发生变异是很好的，然后请求就会覆盖上一个对象。所以我真的不明白这个解决冲突的方法有什么用？我觉得在修改对象时需要传入_version字段是非常不方便的，在删除对象时，它不会立即删除，而是将_deleted

浏览 9提问于2022-03-08得票数 1

1回答

在deltaLake表上配置TTL

、、

我正在寻找一种方法来添加ttl(生存时间)到我的deltaLake表，以便其中的任何记录在固定的跨度后自动消失，我还没有找到任何具体的东西，谁知道是否有解决办法？

浏览 13提问于2020-08-14得票数 0

回答已采纳

3回答

如何将增量表回滚到以前的版本

、、

是否有一种简单的方法可以选择以前的delta表版本作为当前/工作版本？我们可以指定一个版本为“当前/最新”版本，而不是由overwrite/truncate创建另一个版本吗？这个操作更像undo，它完全删除了一些步骤，并使数据进入前一个阶段。然后，在执行select * from MYTABLE时，这个MYTABLE可以指向恢复的版本。

浏览 2提问于2020-11-17得票数 3

回答已采纳

1回答

Hdfs等效于Gcloud中的快照和

、

我们在GCP中有它们的等价物吗？

浏览 3提问于2020-03-05得票数 0

2回答

Delta (OSS)在电子病历和S3上的表格- Vacuum需要很长时间才能找到工作

、、、、

我正在使用开源版本将大量数据写入Databricks Delta lake，运行在AWS EMR上，并使用S3作为存储层。我正在使用EMRFS。为了提高性能，我经常压缩和清理表，如下所示： spark.read.format("delta").load(s3path) t.vacuum(24) 然后，它会从S3中删除</em

浏览 57提问于2020-07-10得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

AWS Glue能否抓取Delta Lake表数据？

如何一次查询三角洲湖表中的所有版本，以跟踪对特定ID所做的更改

从本地Spark作业连接到Azure Data Lake Gen 2

没有Databricks运行时的Delta Lake

基于结构化流媒体作业流水线的delta lake最优分区策略

从数据库DBFS中删除记录

Pyspark: Delta表作为流源，怎么做？

是否有办法从delta* lake删除所有版本的记录？*

如何在Delta* Lake中删除旧版本的表*

Databricks:将镶木镶嵌表转换为增量表

Delta Lake表元数据

寻找用于AVRO .avdl文件的ERD (Viz)工具

在Azure Databricks群集重新启动之前不会显示记录

是否有方法恢复Azure Databricks中已删除的数据？

何时禁用aws放大或AppSync冲突解决

在deltaLake表上配置TTL

如何将增量表回滚到以前的版本

Hdfs等效于Gcloud中的快照和

Delta (OSS)在电子病历和S3上的表格- Vacuum需要很长时间才能找到工作

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐