如何在Databricks notebook中检查Delta Lake版本？

、

如何在databricks笔记本中查看delta lake版本？ (来自slack)

浏览 18提问于2020-01-02得票数 1

2回答

Azure Data Factory可以从Delta Lake格式读取数据吗？

、

尽管这会读取增量文件，但它最终会读取增量文件中数据的所有版本/快照，而不是专门选取增量数据的最新版本。这里有一个类似的问题-- Is it possible to connect to databricks deltalake tables from adf 但是，我希望从ADLS Gen2位置读取增量文件

浏览 20提问于2020-01-03得票数 1

2回答

Pyspark: Delta表作为流源，怎么做？

、、、

什么是预期的，参考来自以下链接https://docs.databricks.com/delta/delta-streaming.html#delta-table-as-a-stream-sourceEx： spark.readStream.format("delta").table("events") -- As expected, should work fine 问题，我用以下方式尝试了相同的方法： df.write.

浏览 34提问于2020-06-12得票数 5

回答已采纳

1回答

数据库+ ADF + ADLS2 + Hive = Azure Synapse

、、、、

我没有使用Azure Synapse的经验，但我的理解是，这与SQL中的Databricks、ADF、ADLS2和Hive是相同的，它们都位于一个不同名称的工作区中。我说错了吗？

浏览 2提问于2021-11-12得票数 1

回答已采纳

1回答

Delta Lake表元数据

Delta Lake在哪里存储表元数据信息。我在我的独立机器上使用的是spark 2.6(不是Databricks)。我的假设是，如果我重启spark，在delta中创建的表将被删除(尝试使用Jupyter notebook)。但事实并非如此。

浏览 31提问于2020-07-21得票数 1

回答已采纳

1回答

从本地Spark作业连接到Azure Data Lake Gen 2

、、、、

我试图从本地的Spark作业连接到我的ADLS Gen 2数据湖，以读取一些Databricks增量表，我之前通过Databricks Notebook存储了这些表，但我收到了一个非常奇怪的异常，我无法对其进行排序FileSystem.java:479) at org.apache.spark.sql.delta.DeltaTableUtils我使用的是io.delta 0.

浏览 21提问于2019-09-12得票数 2

1回答

如何并行插入到Delta表中

、、、、

我有一个进程，简而言之，它在一个相当强大的集群上并行运行同一个databricks笔记本的100+。每个notebook在其过程的末尾将大约100行数据写入存储在Azure Gen1 DataLake中的相同的Delta Lake表中。我看到Delta的插入时间非常长，我只能假设Delta在执行insert操作时锁定表，然后在单个notebook完成后释放它，这基于读取https://docs.databr

浏览 14提问于2020-09-14得票数 1

回答已采纳

1回答

Delta Lake将多个文件压缩为单个文件

、

我目前正在探索delta，这是由databricks开源的。我正在读取kafka数据，并使用delta lake格式将其写入为流。Delta lake在从kafka进行流式写入的过程中创建了许多文件，我觉得kafka是hdfs文件系统的核心。我已经尝试过将多个文件压缩为单个文件。").mode("overwrite").save("deltalakefile/data/")

浏览 16提问于2019-10-13得票数 4

回答已采纳

2回答

Databricks:将镶木镶嵌表转换为增量表

、、、

我正在尝试将Databricks (Azure上的存储)中的现有表转换为Delta。根据提供的信息，这非常简单，我编写了两个sql语句来实现这一点：convert to delta parquet.为了验证，我对表中的一些记录运行了delete操作，这给出了错误： A transaction log for Databricks Delta was found at `dbfs:&

浏览 2提问于2020-07-15得票数 2

2回答

错误:当将Parquet转换为CSV时，‘str’对象没有属性'write‘

、

most recent call last)----> 1 df.write.format("csv").save("/mnt/lake/F1Area/F1Domain/myfinal'df.write.format("csv").save("/mnt

浏览 1提问于2022-01-01得票数 -3

回答已采纳

1回答

和Delta层会让它成为湖屋吗？

、

如果我们有Azure Gen 2存储、ADF和Azure数据库，可以将传入的CSV文件转换为Delta表，可以称为"Lakehouse“体系结构，还是称为"Delta Lake"？或者是"SQL分析“引擎在Delta湖层之上使它成为了"Lakehouse"？请澄清。

浏览 0提问于2021-06-18得票数 1

回答已采纳

2回答

对于Delta* Lake的真空操作，Databricks集群是否需要始终保持正常运行？*

、、、

我正在使用Azure Databricks和集群的最新运行时。我对德尔塔湖的真空操作有些困惑。简而言之:为了利用Delta lake，我们是否需要让Cluster始终处于运行状态？

浏览 53提问于2020-11-27得票数 0

回答已采纳

1回答

Azure Data Factory -如何仅读取从Databricks构建的Delta格式拼接程序中的最新数据集？

、、

为了明确格式，下面是DataFrame在Databricks中的保存方式：df = spark.read.format("delta").load(folde

浏览 0提问于2020-12-02得票数 0

1回答

Databricks Azure -如何从笔记本运行API命令

、、、

如何在Databricks notebook - API中运行以检查其他正在运行的作业： https://docs.databricks.com/dev-tools/api/latest/jobs.html

浏览 13提问于2020-07-29得票数 1

1回答

从数据库DBFS中删除记录

、、

我正在尝试删除位于DBFS中的Databricks Delta Lake中的一些记录。我只有路径。没有保存为表，有没有办法从增量文件中删除记录？谢谢

浏览 24提问于2021-07-08得票数 3

1回答

Delta Lake: Delta表的下一版本如何不携带删除的记录？

、、、

我们每天在delta lake表(表名: dst1)中加载源文件作为时间序列数据。如果deltalake表不存在，我们将创建一个表。如果表确实存在，我们将合并新数据作为时间序列数据。Creating Table if table does not exist:4 Tom Cruise M 1200 6 New Record

浏览 20提问于2021-09-23得票数 2

回答已采纳

1回答

如何将Tableau/BI工具连接到Delta* Lake？(没有databricks)*

、、、

我正在努力弄清楚的一件事是如何在spark会议之外连接到Delta Lake (银牌和金牌)表。我希望能够使用像Tableau这样的BI工具连接到这些表。我没有使用databricks，我想知道将这些表存储在hive metastore中是否会有所帮助。如果不是这样，那么是否有人可以帮助我与其他方法或如果这是可行的或不可行的。

浏览 61提问于2021-04-04得票数 2

3回答

德尔塔湖表重复数据消除

、、

我在Azure有一张Delta Lake桌子。我使用的是Databricks。当我们添加新条目时，我们使用merge into来防止重复项进入表中。然而，重复项确实进入了表中。我不知道这是怎么发生的。有什么方法可以检测并删除表中的重复项吗？我找到的所有文档都展示了如何在合并之前对数据集进行重复数据删除。这一次什么也没有，副本已经在那里了。如何删除重复项？谢谢

浏览 1提问于2020-10-13得票数 0

1回答

用于Azure数据库的DevOps作业

、、

我正在尝试在Azure Databricks上实现DevOps。我已经完成了databricks、notebooks和dbfs文件的devops实现。我确实有许多databricks作业在我的集群上按计划运行。其中一些作业指向notebook文件，少数作业指向dbfs位置中的jar文件。有没有办法在azure databricks作业上实现devops过程，以便DEV中的任何作业中的任何更改都将调用构建管道，并在PROD databricks

浏览 3提问于2020-11-27得票数 2

2回答

在Azure Databricks群集重新启动之前不会显示记录

、、

在过去的几个月里，我们一直在使用Azure Databricks / Delta lake，最近开始发现加载记录的一些奇怪行为，特别是除非重新启动集群或指定特定版本号，否则不会返回最新记录。例如(不返回任何记录) df_nw = spark.read.format('delta').load('/mnt/xxxx') SELEC

浏览 28提问于2021-09-06得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Azure Data Factory可以从Delta Lake格式读取数据吗？

Pyspark: Delta表作为流源，怎么做？

数据库+ ADF + ADLS2 + Hive = Azure Synapse

Delta Lake表元数据

从本地Spark作业连接到Azure Data Lake Gen 2

如何并行插入到Delta表中

Delta Lake将多个文件压缩为单个文件

Databricks:将镶木镶嵌表转换为增量表

错误:当将Parquet转换为CSV时，‘str’对象没有属性'write‘

和Delta层会让它成为湖屋吗？

对于Delta* Lake的真空操作，Databricks集群是否需要始终保持正常运行？*

Azure Data Factory -如何仅读取从Databricks构建的Delta格式拼接程序中的最新数据集？

Databricks Azure -如何从笔记本运行API命令

从数据库DBFS中删除记录

Delta Lake: Delta表的下一版本如何不携带删除的记录？

如何将Tableau/BI工具连接到Delta* Lake？(没有databricks)*

德尔塔湖表重复数据消除

用于Azure数据库的DevOps作业

在Azure Databricks群集重新启动之前不会显示记录

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐