我们每天在deltalake表(表名: dst1)中加载源文件作为时间序列数据。如果deltalake表不存在,我们将创建一个表。如果表确实存在,我们将合并新数据作为时间序列数据。}") here df --> has datajkey --> d.id=ds.id
spark.sql(f"MERGE INTO {dtable} d
我们能够通过在ADF中将增量文件源指定为parquet数据集来读取文件。尽管这会读取增量文件,但它最终会读取增量文件中数据的所有版本/快照,而不是专门选取增量数据的最新版本。 这里有一个类似的问题-- Is it possible to connect to databricks deltalake tables from adf 但是,我希望从ADLS Gen2位置读取增量文件。感谢任何关于这方面的指导。
FileSystem.java:479) at org.apache.spark.sql.delta.DeltaTableUtils我使用的是io.delta 0.3.0,Spark 2.4.2_2.12和azure-hadoop3.2.0。fs.azure.account.key.stratify.dfs.core.windows.net", "my gen 2 key");